PENERAPAN REGRESI GULUD DAN LEAST ABSOLUTE SHRINKAGE AND SELECTION OPERATOR (LASSO) DALAM PENYUSUTAN KOEFISIEN REGRESI
ARUM PUSPORINI
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
RINGKASAN ARUM PUSPORINI. Penerapan Regresi Gulud dan Least Absolute Shrinkage and Selection Operator (LASSO) dalam Penyusutan Koefisien Regresi. Dibimbing oleh AUNUDDIN dan LA ODE ABDUL RAHMAN. Multikolinearitas merupakan salah satu pelanggaran asumsi dalam analisis regresi linier berganda yang dapat terjadi ketika terdapat korelasi yang tinggi antar peubah bebas. Multikolinearitas menyebabkan penduga dengan metode kuadrat terkecil (MKT) menjadi tidak stabil dan menghasilkan ragam yang besar. Salah satu cara untuk mengatasi masalah multikolinearitas tersebut adalah dengan menggunakan regresi gulud (ridge regression). Regresi gulud dapat mengatasi masalah multikolinearitas melalui pemilihan nilai λ yang tepat. Regresi gulud menyusutkan koefisien MKT ke arah nol tetapi tidak dapat melakukan seleksi model. Meskipun model yang diperoleh dari regresi gulud berbias, tetapi keragaman koefisien regresi yang dihasilkan relatif kecil. Akan tetapi, regresi gulud semakin sulit diinterpretasikan jika jumlah peubah bebas yang digunakan sangat banyak. Least Absolute Shrinkage and Selection Operator (LASSO) merupakan metode komputasi dengan menggunakan pemrograman kuadratik yang dapat memerankan prinsip regresi gulud serta melakukan seleksi model. Metode LASSO mulai dikenal setelah ditemukannya algoritma LAR pada tahun 2004. Modifikasi dari LAR untuk LASSO menghasilkan algoritma yang lebih efisien dalam menduga solusi penduga koefisien LASSO dengan komputasi yang lebih cepat dibandingkan pemrograman kuadratik. Metode LASSO dapat menyusutkan koefisien MKT tepat nol sehingga dapat melakukan seleksi peubah. Dengan demikian, model yang dihasilkan metode LASSO lebih sederhana dan secara tidak langsung bebas dari multikolinearitas. Kata kunci : multikolinearitas, MKT, regresi gulud, LASSO, algoritma LAR
PENERAPAN REGRESI GULUD DAN LEAST ABSOLUTE SHRINKAGE AND SELECTION OPERATOR (LASSO) DALAM PENYUSUTAN KOEFISIEN REGRESI
ARUM PUSPORINI
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2012
Judul Nama NRP
: Penerapan Regresi Gulud dan Least Absolute Shrinkage and Selection Operator (LASSO) dalam Penyusutan Koefisien Regresi : Arum Pusporini : G14080086
Menyetujui :
Pembimbing I,
Pembimbing II,
Prof. Dr. Ir. Aunuddin, M.Sc NIP : 194706151971061001
La Ode Abdul Rahman, S.Si, M.Si
Mengetahui : Ketua Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam IPB
Dr. Ir. Hari Wijayanto, M.Si NIP : 196504211990021001
Tanggal Lulus :
PRAKATA Puji syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah dengan judul “Penerapan Regresi Gulud dan Least Absolute Shrinkage and Selection Operator (LASSO) dalam Penyusutan Koefisien Regresi”. Karya ilmiah ini penulis susun sebagai salah satu syarat untuk mendapatkan gelar Sarjana Statistika pada Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Terimakasih penulis ucapkan kepada semua pihak yang telah membantu dalam penulisan karya ilmiah ini, di antaranya: 1. Bapak Prof. Dr. Ir. Aunuddin, M.Sc dan Bapak La Ode Abdul Rahman, S.Si, M.Si selaku dosen pembimbing yang telah memberikan bimbingan, masukan serta saran selama penulisan karya ilmiah ini. 2. Ibu Dr.Ir. Erfiani, M.Si selaku dosen penguji yang telah memberikan banyak masukan dan saran pada penulis. 3. Kedua orang tua dan Anggun Dwi Puspo Supomo atas doa, kasih sayang, serta dukungan kepada penulis. 4. Ibu Tri, Ibu Markonah, Pak Herman, Pak Heri, serta seluruh staf karyawan Departemen Statistika atas segala bantuannya. 5. Rekan satu bimbingan, Hana Maretha dan Gusti Andika Puri atas diskusi, dukungan, dan kekompakannya selama penyusunan karya ilmiah ini. 6. Ika Meilaty, Yulia Anggraeni, Endah Kurniasari, dan Opilianda atas doa dan dukungannya kepada penulis. 7. Yogi Prakoso atas doa, diskusi, dan dukungannya kepada penulis. 8. Seluruh keluarga Statistika 45 dan semua pihak yang tidak dapat dituliskan satu per satu, atas bantuannya penulis ucapkan terima kasih. Penulis menyadari bahwa penulisan karya ilmiah ini masih jauh dari sempurna. Oleh karena itu, kritik dan saran yang membangun sangat penulis harapkan untuk bisa lebih baik di masa mendatang. Semoga karya ilmiah ini dapat bermanfaat bagi pihak yang membutuhkan.
Bogor, Oktober 2012
Arum Pusporini
RIWAYAT HIDUP Penulis dilahirkan di Purworejo pada tanggal 3 Mei 1990 dari pasangan Bapak Supomo dan Ibu Eko Murti Nurhayati. Penulis merupakan anak pertama dari dua bersaudara. Tahun 2002 penulis lulus dari SD Negeri Rejosari, kemudian melanjutkan pendidikan di SMP Negeri 3 Purworejo dan lulus tahun 2005. Selanjutnya, pada tahun 2008 penulis menyelesaikan pendidikannya di SMA Negeri 1 Purworejo dan pada tahun yang sama lulus seleksi masuk Institut Pertanian Bogor melalui jalur Seleksi Nasional Masuk Perguruan Tinggi Negeri (SNMPTN). Penulis diterima sebagai mahasiswa Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam (FMIPA) Institut Pertanian Bogor dengan mayor Statistika serta minor Ekonomi dan Studi Pembangunan. Selama mengikuti perkuliahan, penulis menjadi asisten dosen mata kuliah Metode Statistika pada tahun ajaran 2010/2011. Kegiatan organisasi yang sempat diikuti adalah himpunan profesi Gamma Sigma Beta (GSB) tahun 2011 menjadi staf divisi Sains dan Organisasi Mahasiswa Daerah (OMDA) Purworejo, GAMAPURI. Selain itu, penulis juga aktif dalam kegiatan kepanitiaan seperti IDEA 2010, Statistika Ria 2010, Welcome Ceremony of Statistics (WCS) 2011, Lomba Jajak Pendapat Statistika (LJPS) 2011, serta Pesta Sains Nasional 2011. Pada bulan Februari 2012 sampai dengan April 2012, penulis melaksanakan kegiatan praktik lapang di IFF-PT Essence Indonesia, Jakarta Timur.
DAFTAR ISI Halaman DAFTAR GAMBAR ............................................................................................................... viii DAFTAR TABEL .................................................................................................................... viii DAFTAR LAMPIRAN ............................................................................................................ viii PENDAHULUAN.................................................................................................................... 1 Latar Belakang ................................................................................................................. 1 Tujuan .............................................................................................................................. 1 TINJAUAN PUSTAKA ........................................................................................................... Analisis Regresi Linier .................................................................................................... Metode Kuadrat Terkecil ................................................................................................. Multikolinearitas .............................................................................................................. Regresi Gulud .................................................................................................................. LASSO ............................................................................................................................ Algoritma LAR ................................................................................................................ Validasi Silang .................................................................................................................
1 1 1 2 2 3 3 4
DATA DAN METODE ........................................................................................................... 4 Data.................................................................................................................................. 4 Metode ............................................................................................................................. 4 HASIL DAN PEMBAHASAN ................................................................................................ Eksplorasi Data ............................................................................................................... Regresi Linier Berganda dengan Metode Kuadrat Terkecil ............................................ Mendeteksi Multikolinearitas .......................................................................................... Regresi Gulud .................................................................................................................. LASSO ............................................................................................................................ Pemilihan Model Terbaik LASSO ................................................................................... Perbandingan Model Hasil MKT, Gulud, dan LASSO....................................................
5 5 5 6 6 7 8 8
SIMPULAN DAN SARAN ..................................................................................................... 9 Simpulan .......................................................................................................................... 9 Saran ................................................................................................................................ 9 DAFTAR PUSTAKA .............................................................................................................. 9 LAMPIRAN ............................................................................................................................. 11
DAFTAR GAMBAR Halaman 1 Ridge Trace .......................................................................................................................... 6 2 Plot objek LARS yang dihasilkan oleh fungsi LARS untuk menduga koefisien LASSO ............................................................................................................................... 7 3 Nilai validasi silang dengan menggunakan mode fraction ................................................... 8 4 Nilai validasi silang dengan menggunakan mode step ......................................................... 8
DAFTAR TABEL
1 2 3 4 5 6 7
Halaman Analisis ragam hasil MKT .................................................................................................. 5 Koefisien regresi hasil MKT ................................................................................................ 5 Nilai VIF untuk setiap peubah bebas .................................................................................. 6 Koefisien regresi hasil MKT dan regresi gulud.................................................................... 6 Simpangan baku koefisien hasil analisis regresi dengan MKT dan gulud ........................... 7 Peubah bebas yang masuk dalam model untuk setiap tahapan pada metode LASSO .......... 8 Koefisien regresi hasil MKT, gulud, dan LASSO ................................................................ 9
DAFTAR LAMPIRAN
1 2 3 4
Halaman Plot masing-masing peubah bebas (X) dan peubah respon (Y) ............................................ 12 Nilai korelasi antar peubah ................................................................................................... 13 Koefisien regresi menggunakan metode LASSO untuk setiap tahapan ............................... 14 Nilai ∑β /max ∑β untuk setiap tahapan LASSO ........................................................... 15
1
PENDAHULUAN
TINJAUAN PUSTAKA
Latar Belakang Salah satu masalah yang sering muncul dalam regresi linier berganda adalah adanya korelasi antar peubah bebas (multikolinearitas). Multikolinearitas dapat mempengaruhi ragam dari penduga kuadrat terkecil dan pendugaan model yang dihasilkan. Adanya multikolinearitas menyebabkan matriks (XTX) menjadi singular atau hampir singular, sehingga sedikit perubahan elemen X akan berpengaruh besar terhadap matriks (XTX)-1 pada pendugaan dengan menggunakan Metode Kuadrat Terkecil (MKT). Akibatnya, penduga koefisien MKT menjadi tidak stabil dan memiliki ragam yang cenderung lebih besar (Izenman 2008). Pada kenyataannya, yang diharapkan pada sebuah penelitian adalah model yang memiliki ragam minimum, meskipun berbias. Dengan demikian, salah satu cara untuk mengatasi multikolinearitas dapat dengan menggunakan penduga berbias, seperti regresi komponen utama, regresi kuadrat terkecil parsial, atau regresi gulud. Pada penelitian ini, multikolinearitas diatasi dengan menggunakan regresi gulud. Regresi gulud (ridge regression) merupakan shrinkage methods atau metode penyusutan koefisien regresi yang dapat digunakan untuk mengatasi masalah multikolinearitas. Meskipun model yang diperoleh dari regresi gulud berbias, tetapi penduga koefisien yang dihasilkan cenderung lebih stabil dibandingkan MKT (Chatterjee & Hadi 2006). Seleksi peubah bebas diperlukan agar model lebih sederhana dan mudah diinterpretasikan. Akan tetapi, regresi gulud tidak dapat melakukan seleksi peubah bebas untuk memperoleh model yang terbaik. Pada tahun 1996, Tibshirani memperkenalkan metode Least Absolute Shrinkage and Selection Operator (LASSO) yang dapat memerankan prinsip regresi gulud serta melakukan seleksi model regresi.
Analisis Regresi Linier Analisis regresi merupakan suatu teknik statistika untuk memeriksa dan memodelkan hubungan antar peubah (Montgomery & Peck 1992). Regresi merupakan tempat kedudukan nilai tengah dari peubah Y untuk berbagai nilai atau selang nilai peubah X, serta merupakan usaha untuk mengepas suatu fungsi atau kurva terhadap pencaran titik-titik pada sumbu X-Y (Mosteller & Tukey dalam Aunuddin 2005). Dalam hal ini, Y adalah peubah tak bebas/respon, sedangkan X adalah peubah bebas/penjelas. Regresi linier sederhana hanya melibatkan satu peubah bebas, sedangkan regresi linier berganda melibatkan p peubah bebas. Regresi linier sederhana memiliki beberapa asumsi, yaitu nilai harapan/rataan sisaan sama dengan nol, ragam sisaan homogen, sisaan saling bebas, sisaan menyebar normal dengan rataan nol dan ragam σ2, serta sisaan bebas terhadap peubah bebas. Pada regresi linier berganda terdapat asumsi tambahan bahwa tidak ada multikolinearitas pada peubah bebas. Model linier artinya linier dalam parameter (Draper & Smith 1992). Jika terdapat vektor input xT = (x1, x2,…,xp) dan digunakan untuk menduga luaran nilai Y yang berupa bilangan riil, maka model regresi linier memiliki bentuk sebagai berikut,
Tujuan Penelitian ini bertujuan untuk menerapkan regresi gulud dan LASSO dalam penyusutan koefisien regresi pada data dengan multikolinearitas.
y = β + ∑ X β + ε Keterangan: yi : vektor peubah respon berukuran nx1 β0 : intersep Xij : matriks peubah bebas berukuran nx(p+1) βj : slope atau kemiringan εi : vektor sisaan acak berukuran nx1 Metode Kuadrat Terkecil Metode kuadrat terkecil (Ordinary Least Square) merupakan metode yang digunakan untuk menduga koefisien regresi linier dengan cara meminimumkan jumlah kuadrat sisaan (Hastie et al. 2008), yaitu dengan meminimumkan persamaan: JKS = ∑ y − fx
= ∑ y − β − ∑ x β
" dengan MKT akan menghasilkan Penduga ! penduga yang tak bias serta solusi unik sebagai berikut,
2
" = (XTX)-1 XTy ! Pendugaan koefisien regresi dengan MKT memiliki kuadrat tengah sisaan terkecil di antara semua penduga linier yang tak bias. Namun, pada kondisi tertentu (misalnya multikolinieritas dan peubah sangat banyak), metode kuadrat terkecil sering tidak memuaskan. Hal tersebut disebabkan karena adanya masalah keakuratan prediksi yang mengakibatkan penduga kuadrat terkecil memiliki bias rendah tetapi ragam besar. Selain itu, semakin banyak peubah bebas maka model semakin sulit diinterpretasikan (Tibshirani 1996). Multikolinearitas Multikolinearitas terjadi ketika terdapat korelasi antara dua atau lebih peubah bebas dalam regresi. Adanya multikolinearitas mengakibatkan penduga koefisien regresi yang diperoleh dari MKT akan menghasilkan ragam yang besar, meskipun tetap tidak bias (Pasha & Shah 2004). Selain itu, multikolinearitas juga dapat menyebabkan tanda koefisien regresi berbeda dengan tanda korelasi sederhananya ( Juanda 2009). Multikolinearitas dapat terlihat dari nilai korelasi Pearson antar peubah bebas. Jika korelasi antar peubah bebas sangat tinggi, maka dapat mengindikasikan adanya masalah multikolinearitas. Selain itu, nilai Variance Inflation Factor (VIF) juga dapat digunakan untuk mendeteksi adanya multikolinearitas. Nilai VIF dirumuskan sebagai berikut, VIF = 1 − R
(
R merupakan koefisien determinasi dari regresi dengan X sebagai peubah respon dan peubah X yang lain sebagai peubah bebas. Jika X tidak berkorelasi dengan peubah bebas lain, maka R akan bernilai kecil dan nilai VIF mendekati 1. Sebaliknya jika X mempunyai korelasi dengan peubah bebas lain, maka R akan mendekati 1 dan nilai VIF menjadi besar. Jika nilai VIF lebih besar dari 10, maka menunjukkan adanya multikolinearitas (Montgomery & Peck 1992). Terdapat beberapa cara untuk mengatasi masalah multikolinearitas, di antaranya adalah membuang peubah bebas yang mempunyai korelasi yang tinggi terhadap peubah bebas lainnya, menambah data pengamatan, dan melakukan transformasi terhadap peubahpeubah bebas yang mempunyai kolinearitas
(Juanda 2009). Selain itu, multikolinearitas juga dapat diatasi dengan menggunakan regresi gulud, regresi kuadrat terkecil parsial, dan regresi komponen utama (Izenman 2008). Regresi Gulud Regresi gulud diperkenalkan pertama kali oleh Hoerl pada tahun 1962 untuk mengendalikan ketidakstabilan penduga kuadrat terkecil (Hoerl & Kennard 1970). Regresi gulud merupakan metode pendugaan alternatif yang dapat digunakan ketika terdapat kolinearitas yang tinggi antar peubah bebas (Chatterjee & Hadi 2006). Solusi regresi gulud diperoleh dengan cara yang sama seperti metode kuadrat terkecil, yaitu dengan meminimumkan jumlah kuadrat sisaan. Regresi gulud menambahkan kendala pada kuadrat terkecil sehingga koefisien menyusut mendekati nol (Hastie et al. 2008). Secara spesifik, penduga koefisien pada regresi gulud (β)*+*, diperoleh dengan cara meminimumkan persamaan sebagai berikut, β)*+*, = ∑ y − β − ∑ x β
dengan kendala ∑ β ≤ t, dimana t merupakan suatu besaran yang mengontrol besarnya penyusutan dengan nilai t ≥ 0. Regresi gulud menghasilkan solusi unik dalam bentuk matriks sebagai berikut, " 01213 = 4 5 4 + 67(8 4 5 9 / Keterangan: I : matriks identitas berukuran pxp λ : parameter gulud dengan nilai λ ≥ 0 Nilai λ berperan dalam mengontrol besarnya penyusutan. Salah satu cara untuk mencari nilai λ yang optimal adalah dengan menggunakan ridge trace, yaitu simulasi plot antara komponen β(λ) dengan nilai λ (Hoerl & Kennard 1970). Jika λ=0, maka model menjadi bentuk standar. Jika λ dinaikkan, maka nilai mutlak dugaan koefisiennya menjadi semakin kecil menuju nol untuk λ menuju tak hingga (Draper & Smith 1992). Selain itu, pemilihan nilai λ yang optimal juga dapat diperoleh dengan menggunakan validasi silang terampat atau Generalized Cross Validation (GCV). Penduga koefisien yang optimal diperoleh dari pemilihan nilai λ yang menghasilkan nilai GCV paling
3
minimum (Montgomery & Peck 1992). Nilai GCV dirumuskan sebagai berikut, GCV =
∑? e,> @n − B1 + trD> EF
Keterangan: ei, λ : sisaan ke-i untuk nilai spesifik λ H : matriks hat Penduga yang dihasilkan oleh regresi gulud merupakan penduga yang berbias tetapi cenderung lebih stabil dibandingkan dengan penduga MKT (Chatterjee & Hadi 2006). Akan tetapi, interpretasi model pada regresi gulud relatif lebih sulit dibandingkan metode seleksi jika jumlah peubah bebas yang digunakan sangat banyak. Regresi gulud menghasilkan penduga koefisien yang disusutkan kearah nol seiring dengan peningkatan nilai λ. Oleh karena itu, seleksi peubah tidak dapat dilakukan oleh regresi gulud karena secara simultan koefisien yang diduga mungkin tidak bernilai nol. Metode LASSO muncul untuk memerankan prinsip regresi gulud sekaligus seleksi peubah. LASSO Metode Least Absolute Shrinkage and Selection Operator (LASSO) diperkenalkan pertama kali oleh Tibshirani pada tahun 1996. Penduga koefisien LASSO tidak dapat diperoleh dalam bentuk tertutup seperti pada MKT atau regresi gulud, tetapi dengan menggunakan pemrograman kuadratik (Hastie et al. 2008). Metode LASSO mulai dikenal setelah ditemukannya algoritma LAR pada tahun 2004 oleh Effron. Penduga koefisien pada metode LASSO (βGHIIJ diperoleh dengan cara meminimumkan persamaan sebagai berikut (Tibshirani 1996), βGHIIJ = ∑ y − β − ∑ x β
dengan kendala ∑β ≤ t. Nilai t merupakan suatu besaran yang mengontrol besarnya penyusutan pada pendugaan koefisien LASSO dengan t ≥ 0. Jika βK merupakan penduga kuadrat terkecil dan t = ∑ β, maka nilai t < t0 akan menyebabkan solusi MKT menyusut ke arah nol, dan memungkinkan beberapa koefisien tepat nol. Jika nilai t yang dipilih lebih besar atau sama dengan daripada t0, maka penduga LASSO memberikan hasil yang sama dengan penduga kuadrat terkecil (Tibshirani 1996).
Pendugaan koefisien LASSO diperoleh dengan menentukan batas yang dibakukan, yaitu L = M/ ∑NOK dengan M = ∑NOK dan NOK adalah penduga kuadrat terkecil untuk model penuh atau pada gambar ditulis sebagai |beta|/max |beta| (Dewi 2010). Perbedaan antara regresi gulud dan LASSO terletak pada kendala pendugaan koefisien regresi. Kendala pada regresi gulud adalah ∑ β ≤ t sedangkan kendala pada ∑β ≤ t. metode LASSO adalah Perbedaan kendala antara kedua metode tersebut menyebabkan dugaan koefisien yang diperoleh metode LASSO cenderung lebih kecil dibandingkan dugaan koefisien dengan regresi gulud. Koefisien regresi gulud hanya disusutkan ke arah nol, sedangkan koefisien LASSO dapat disusutkan sampai tepat nol sehingga dapat berfungsi sebagai seleksi peubah seperti regresi bertatar atau regresi subset terbaik. Algoritma LAR Least Angle Regression (LAR) merupakan suatu metode regresi yang algoritmanya dapat dimodifikasi menjadi algoritma komputasi untuk metode LASSO. Modifikasi dari LAR untuk LASSO menghasilkan efisiensi algoritma dalam menduga koefisien LASSO dengan komputasi yang lebih cepat dibandingkan pemrograman kuadratik. Algoritma LAR adalah sebagai berikut (Hastie et al. 2008): 1. Membakukan peubah bebas sehingga memiliki nilai tengah nol dan ragam satu. Dimulai dengan sisaan r = y-yP, dan β1, β2,…, βp = 0. Pembakuan ini dimaksudkan agar dapat membandingkan dugaan koefisien regresi yang memiliki ragam yang berbeda dalam suatu model. 2. Mencari peubah bebas xj yang paling berkorelasi dengan r. 3. Mengubah nilai βj dari 0 bergerak menuju koefisien kuadrat terkecil (xj,r), sampai kompetitor xk yang lain memiliki korelasi yang cukup dengan sisaan akibat xj. 4. Mengubah nilai βj dan βk bergerak ke arah koefisien kuadrat terkecil bersama dari sisaan sekarang dengan (xj,xk), sampai kompetitor xl yang lain memiliki korelasi yang cukup dengan sisaan akibat (xj,xk). Modifikasi algoritma LAR untuk mendapatkan solusi LASSO adalah dengan memodifikasi langkah ke-4 menjadi:
4
4a. Jika koefisien bukan nol mencapai nilai nol, keluarkan peubah tersebut dari gugus peubah aktif dan hitung kembali arah kuadrat terkecil bersama. 5. Mengulang langkah nomor 4 sampai semua p peubah bebas dimasukkan. Setelah min(N-1,p) langkah, solusi model penuh untuk kuadrat terkecil diperoleh. LAR selalu mengambil p langkah untuk mendapatkan penduga kuadrat terkecil secara penuh, sedangkan modifikasi LAR untuk LASSO dapat memiliki lebih dari p langkah untuk mendapatkannya. Algoritma LASSO dengan memodifikasi LAR merupakan cara yang efisien dalam komputasi solusi masalah LASSO, terutama ketika jumlah peubah bebas yang digunakan jauh lebih banyak daripada data amatannya (Hastie et al. 2008). Validasi Silang Terdapat beberapa metode pemilihan model terbaik, antara lain nilai Cp Mallows. validasi silang atau Cross Validation (CV), dan validasi silang terampat atau Generalized Cross Validation (GCV). Validasi silang membagi data menjadi dua bagian, yaitu data training dan data test. Data training digunakan untuk mengepas nilai β, sedangkan data test digunakan untuk menguji kebaikan prediksi dari Xβ. Nilai validasi silang yang diperoleh merupakan penduga bagi sisaan prediksi (Izenman 2008). Salah satu metode tipe validasi silang adalah k-fold. Metode ini memiliki kelebihan ketika jumlah data amatan yang digunakan sedikit. Dalam validasi silang k-fold, semua observasi dipartisi secara acak ke dalam k subcontoh. Setiap sub-contoh digunakan sebagai data test dan sisanya digunakan sebagai data training. Proses validasi silang diulang sampai k kali, dan setiap satu sub-contoh digunakan hanya sekali dalam data test. S diduga oleh Nilai sisaan prediksi PE validasi silang dengan menggunakan persamaan sebagai berikut, S = CV = ∑TV ∑W ,Y ∈[y − yU(Vx PE X X T dengan yU(V x adalah dugaan y untuk xi pada saat fold ke-k tidak digunakan dalam menduga model, dan yi adalah peubah respon ke-i pada data test T. Menurut Izenman (2008), validasi silang yang sebaiknya digunakan adalah validasi silang 5-fold atau 10-fold karena S dengan bias tinggi menghasilkan nilai PE tetapi ragam rendah.
DATA DAN METODE Data Respon yang digunakan dalam penelitian ini adalah persentase balita penderita gizi buruk di Indonesia. Terdapat lima belas peubah bebas yang diduga berpengaruh terhadap respon, yaitu sebagai berikut: X1 : Persentase tingkat kemiskinan X2 : Persentase angka melek huruf X3 : Persentase anak umur 12-23 bulan yang mendapatkan imunisasi dasar lengkap X4 : Persentase Frekuensi Penimbangan anak umur 6-59 bulan ≥ 4 kali selama enam bulan terakhir X5 : Persentase kepemilikan KMS anak balita X6 : Persentase anak umur 6-59 bulan yang menerima kapsul vitamin A selama enam bulan terakhir X7 : Persentase anak balita yang ditimbang ketika baru lahir X8 : Persentase berat badan bayi baru lahir anak balita (< 2500 gr) X9 : Persentase kunjungan neonatus lengkap (KN1, KN2, KN3) X10 : Persentase bayi yang diberi makanan prelakteal X11 : Persentase anak usia 0-23 bulan yang masih disusui X12 : Persentase rumah tangga menurut akses terhadap air minum ‘berkualitas’ baik X13 : Persentase rumah tangga menurut akses terhadap pembuangan tinja layak Sesuai MDGs X14 : Persentase rumah tangga dengan penanganan sampah baik X15 : Persentase rumah tangga dengan kriteria rumah sehat Data yang digunakan dalam penelitian ini merupakan data sekunder yang diperoleh dari Badan Pusat Statistik dan Laporan Hasil Riset Kesehatan Dasar (Riskesdas) tahun 2010. Riset tersebut dilakukan oleh Badan Penelitian dan Pengembangan Kesehatan (Balitbangkes) Kementerian Kesehatan RI yang dilaksanakan di 33 provinsi di Indonesia. Data peubah X1 dan X2 diperoleh dari BPS, sedangkan data peubah lain diperoleh dari Riskesdas. Metode Tahapan yang dilakukan dalam penelitian ini adalah sebagai berikut: 1. Membakukan peubah bebas X sehingga memiliki nilai tengah nol dan ragam satu, serta dapat membandingkan koefisien regresi setiap metode.
5
2. Eksplorasi awal berupa plot antara peubah X dan Y, serta korelasi antar peubah. 3. Membakukan peubah bebas X sehingga memiliki nilai tengah nol dan ragam satu. 4. Melakukan analisis regresi menggunakan MKT. 5. Mendeteksi adanya multikolinearitas dengan melihat nilai Variance Inflation Factor (VIF). 6. Melakukan analisis regresi gulud. a) Memilih nilai λ yang paling optimal dari ridge trace dengan menggunakan GCV. b) Analisis regresi menggunakan regresi gulud dengan nilai λ optimal. 7. Melakukan analisis regresi dengan metode LASSO. a) Menentukan penduga koefisien regresi LASSO untuk setiap tahapan. b) Memilih model terbaik dengan menggunakan CV. c) Menduga koefisien model terbaik yang telah dipilih. 8. Membandingkan penduga koefisien regresi yang dihasilkan oleh MKT, regresi gulud dan LASSO. Analisis dalam penelitian ini menggunakan program R versi 2.15 dengan paket tambahan MASS dan LARS. Paket MASS digunakan untuk melakukan pendugaan model dengan menggunakan regresi gulud, sedangkan paket LARS digunakan untuk melakukan pendugaan model dengan menggunakan metode LASSO. HASIL DAN PEMBAHASAN Eksplorasi Data Eksplorasi data diawali dengan membuat plot antara peubah respon (Y) dengan setiap peubah bebasnya (X). Berdasarkan hasil plot terlihat bahwa pada umumnya pencaran titik cenderung mengikuti garis lurus, sehingga secara grafis terlihat bahwa terdapat hubungan linier antara Y dan X (Lampiran 1). Hubungan antar peubah bebas dapat terlihat pada hasil korelasi antar peubah bebas. Pada Lampiran 2 terlihat bahwa terdapat beberapa peubah bebas yang memiliki korelasi cukup besar dengan peubah bebas lainnya. X9 memiliki korelasi cukup besar dengan X4, X6, dan X13, X6 memiliki korelasi cukup besar dengan X7, sedangkan X13 memiliki korelasi cukup besar dengan X14. Hal tersebut dapat mengindikasikan adanya masalah multikolinearitas pada data yang digunakan.
Regresi Linier Berganda dengan Metode Kuadrat Terkecil Analisis regresi linier berganda dengan menggunakan MKT menghasilkan model dengan nilai F-hitung sebesar 6.3926 dan nilai-p sebesar 0.0002. Dengan demikian model yang dihasilkan nyata pada taraf 5%. Hasil analisis ragam dengan menggunakan MKT dapat terlihat pada Tabel 1. Tabel 1 Analisis ragam hasil MKT Sumber Keragaman
db
Jumlah Kuadrat
Kuadrat Tengah
Fhitung
Regresi
15
405.553
27.037
6.3926
Sisaan Total
17 32
71.900 477.453
4.229
Dari lima belas peubah bebas yang digunakan dalam analisis hanya persentase anak balita yang ditimbang ketika baru lahir (X7), persentase anak usia 0-23 bulan yang masih disusui (X11), dan persentase rumah tangga dengan kriteria rumah sehat (X15) yang berpengaruh nyata terhadap balita penderita gizi buruk di Indonesia (Tabel 2). Hal tersebut terlihat dari nilai-p yang kurang dari 5%. Tabel 2 Koefisien regresi hasil MKT Dugaan Peubah Nilai-p Koefisien Intersep 6.4333 1.51E-12 X1 1.1545 0.0703 X2 X3
0.5652 1.3209
0.3920 0.0982
X4 X5
0.5645 0.5484
0.4728 0.4194
X6 X7
-0.8329 -2.6545
0.3199 0.0041
X8 X9
0.6663 -2.0980
0.2724 0.1098
X10 X11
-1.1870 1.2976
0.0977 0.0344
X12 X13
0.8187 0.9288
0.2417 0.3482
X14 X15
-0.6124 1.7600
0.4248 0.0153
6
Peubah
VIF
X1 X2
2.704 3.133
X3 X4
4.312 4.472
X5 X6
3.323 4.999
X7 X8
4.845 2.611
X9 X10
11.700 3.471
X11 X12
2.409 3.447
X13 X14
7.014 4.242
X15
3.223
Selain itu, masalah multikolinearitas juga dapat terlihat dari nilai koefisien determinasi yang cukup besar pada model regresi hasil pendugaan dengan menggunakan MKT, yaitu sebesar 84.94%, tetapi banyak peubah bebas yang tidak berpengaruh nyata terhadap respon. Adanya multikolinearitas menyebabkan tanda beberapa koefisien regresi berbeda dengan tanda korelasi sederhananya, seperti X2, X3, X4, X5, X12, X13, dan X15. Regresi Gulud Adanya multikolinearitas pada data yang digunakan, diatasi dengan menggunakan regresi gulud. Penduga koefisien gulud diperoleh dari pemilihan nilai λ yang optimal. Hasil ridge trace pada Gambar 1 menunjukkan hasil yang bersifat subjektif dalam pemilihan nilai λ. Hal tersebut dikarenakan sulitnya menentukan nilai λ yang paling minimum
1 0 -1 -2
Tabel 3 Nilai VIF untuk setiap peubah bebas
ketika nilai β(λ) mulai stabil pada setiap peubah bebas. Nilai λ yang optimal selanjutnya dapat diperoleh dari nilai GCV yang paling minimum, yaitu ketika λ sebesar 3.6. Pada Gambar 1 nilai λ yang optimal digambarkan dengan garis vertikal. .
t(x$coef)
Mendeteksi Multikolinearitas Eksplorasi data antar peubah bebas pada Lampiran 2 menunjukkan adanya korelasi antara beberapa peubah bebas. Adanya masalah multikolinearitas lebih terlihat dari nilai VIF yang dihasilkan karena terdapat nilai VIF yang lebih besar dari 10, yaitu sebesar 11.700 pada peubah X9. Dengan demikian, dapat diketahui bahwa terdapat korelasi antara peubah X9 dengan peubah lainnya. Nilai VIF untuk setiap peubah bebas ke-j dapat terlihat pada Tabel 3.
0
20
40
60
80
100
x$lambda
Gambar 1 Ridge Trace Berdasarkan nilai λ yang dipilih, maka penduga koefisien hasil analisis dengan menggunakan regresi gulud dapat terlihat pada Tabel 4. Adanya nilai λ pada regresi gulud menyebabkan dugaan koefisien regresi yang dihasilkan menyusut. Dugaan koefisien regresi gulud cenderung lebih kecil dibandingkan dengan dugaan koefisien regresi MKT. Tabel 4
Koefisien regresi hasil MKT dan regresi gulud
Peubah
MKT
Regresi gulud
Intersep X1
6.4333 1.1545
6.4333 1.0058
X2 X3
0.5652 1.3209
0.3411 0.4354
X4 X5
0.5645 0.5484
0.5420 0.1327
X6 X7
-0.8329 -2.6545
-0.8117 -1.9402
X8 X9
0.6663 -2.0980
0.7648 -0.9426
X10 X11
-1.1870 1.2976
-0.4251 0.6637
X12 X13
0.8187 0.9288
0.4667 0.3587
X14 X15
-0.6124 1.7600
-0.3648 1.0039
7
Keragaman koefisien regresi hasil analisis dengan menggunakan MKT dan gulud dapat terlihat dari nilai simpangan baku koefisien regresi (S\] ). Pada Tabel 5 terlihat bahwa keragaman koefisien regresi yang dihasilkan oleh regresi gulud relatif lebih kecil dibandingkan dengan MKT. Dengan demikian, penduga gulud cenderung lebih stabil dibandingkan dengan penduga MKT.
Penduga koefisien regresi gulud hanya disusutkan kearah nol sehingga tidak dapat melakukan seleksi peubah. Dengan demikian, interpretasi regresi gulud akan semakin sulit ketika jumlah peubah bebas yang digunakan sangat banyak. LASSO Metode LASSO juga dapat digunakan untuk mengatasi masalah multikolinearitas yang terjadi pada analisis regresi linier berganda. Penduga koefisien LASSO diperoleh melalui komputasi dengan memodifikasi algoritma LAR sehingga menghasilkan algoritma yang lebih efisien dibandingkan pemrograman kuadratik. Hasil modifikasi algoritma LAR untuk LASSO dapat terlihat pada Gambar 2. Pada metode LASSO, tahap inisialisasi diawali dengan menetapkan semua koefisien dengan angka nol. Selanjutnya, peubah yang memiliki korelasi tinggi dengan sisaan masuk ke dalam model. Pada iterasi pertama, peubah X7 merupakan peubah yang memiliki korelasi yang paling tinggi dengan sisaan dibandingkan peubah lainnya sampai ∑β /max ∑β sekitar 0.127958 masuk peubah X1. Peubah X8 masuk berikutnya ke dalam model dengan ∑β /max ∑β sekitar 0.160727 dan seterusnya sampai peubah X5 merupakan peubah yang terakhir masuk ke dalam model (Tabel 6).
0.6627 0.8129
0.4252 0.4724
X7 X8
0.8009 0.5874
0.4773 0.3899
X9 X10
1.2435 0.6773
0.4756 0.4115
X11 X12
0.5642 0.6749
0.3911 0.4266
X13 X14
0.9628 0.7488
0.4801 0.4597
X15
0.6527
0.4222
1
5
7
9
11
14
15
*
* * ** * ** ** *** ** *
* ** * ** ** ** *
* * ** **
* * * ** * ** * * *
** * ** * ** ** * ** * ** ** **
** ** ** ** ** **** ** ** ** ** ** **
** *
** *
* * * * * **
* * *
0.0
0.2
0.4
0.6
0.8
*
9
** *** * **
*
7
-10
-5
0
5
*
-15
Standardized Coefficients
10
0
15
X5 X6
1
0.4373 0.4565
5
0.7549 0.7688
14
X3 X4
10
Tabel 5 Simpangan baku koefisien hasil analisis regresi dengan MKT dan gulud Peubah MKT Gulud X1 0.4062 0.5978 X2 0.6435 0.4114
1.0
|beta|/max|beta|
Gambar 2 Plot objek LARS yang dihasilkan oleh fungsi LARS untuk menduga koefisien LASSO
8
X7 X1 X8 X6 X9 X7 X1 X8 X6 X9 X15
7 8
X7 X1 X8 X6 X9 X15 X11 X7 X1 X8 X6 X9 X15 X11 X4 X7 X1 X8 X6 X9 X15 X11 X4 X12 X7 X1 X8 X6 X9 X15 X11 X4 X12 X2 X7 X1 X8 X6 X9 X15 X11 X4 X12 X2 X3 X7 X1 X8 X6 X9 X15 X11 X4 X12 X2 X3 X10 X7 X1 X8 X6 X9 X15 X11 X4 X12 X2 X3 X10 X13 X7 X1 X8 X6 X9 X15 X11 X4 X12 X2 X3 X10 X13 X14 X7 X1 X8 X6 X9 X15 X11 X4 X12 X2 X3 X10 X13 X14 X5
9 10
11 12
13 14
15
Koefisien model regresi untuk setiap tahapan dapat terlihat pada Lampiran 3. Nilai ∑β /max ∑β untuk setiap tahapan dapat terlihat pada Lampiran 4.
15 10 5
Cross-Validated MSE
20
Pemilihan Model Terbaik LASSO Pemilihan model terbaik dalam metode LASSO dilakukan dengan menggunakan kriteria validasi silang, yaitu dengan menggunakan mode fraction dan mode step. Pada mode fraction, nilai validasi silang ∑β /max ∑β dihitung berdasarkan (Gambar 3).
0.0
0.2
0.4
0.6
0.8
1.0
Fraction of final L1 norm
Gambar 3 Nilai validasi silang dengan menggunakan mode fraction
20
5 6
15
X7 X1 X8 X7 X1 X8 X6
10
3 4
Tahap
Pada Gambar 3 terlihat bahwa fraction ∑β /max ∑β sekitar 0.253796 merupakan nilai CV yang minimum. Nilai CV minimum tersebut dapat berbeda setiap kali melakukan pemanggilan fungsinya. Dari beberapa pengulangan maka diperoleh CV turun dan kemudian naik kembali pada nilai sekitar 0.253796. Pada Lampiran 4 terlihat bahwa nilai ∑β /max ∑β sekitar 0.253796 berada antara tahap 7. Mode step menghitung nilai validasi silang pada setiap tahapan dimana satu peubah masuk dalam model. Pemilihan model terbaik dengan menggunakan mode step dalam menghitung nilai CV menunjukkan bahwa model terbaik terlihat pada tahap 7 (Gambar 4). Hal tersebut dikarenakan pada tahap 7 memberikan nilai CV yang merupakan titik belok dari turun menjadi naik pertama.
5
1 2
Peubah bebas yang masuk dalam model untuk setiap tahapan pada metode LASSO Peubah bebas yang masuk ke dalam model X7 X7 X1
Cross-Validated MSE
Tabel 6
5
10
15
Number of steps
Gambar 4 Nilai validasi silang dengan menggunakan mode step Berdasarkan kedua metode validasi silang tersebut, maka model terbaik LASSO yang terpilih pada data ini adalah model pada tahap ke-7. Terdapat tujuh peubah bebas yang masuk ke dalam model pada tahap ke-7, yaitu X1, X6, X7, X8, X9, X11, dan X15. Perbandingan Model Hasil MKT, Gulud, dan LASSO Adanya kendala pada regresi gulud dan LASSO menyebabkan dugaan koefisien regresi kedua metode tersebut menyusut. Perbedaan kendala antara regresi gulud dan LASSO menghasilkan dugaan koefisien LASSO cenderung lebih kecil dibandingkan dugaan koefisien regresi gulud. Perbandingan koefisien regresi hasil analisis dengan menggunakan MKT, regresi gulud, dan LASSO dapat terlihat pada Tabel 7.
9
Tabel 7 Koefisien regresi hasil MKT, gulud, dan LASSO Peubah MKT Gulud LASSO Intersep X1
6.4333 1.1545
6.4333 1.0058
6.4333 0.6234
X2 X3
0.5652 1.3209
0.3411 0.4354
0.0000 0.0000
X4 X5
0.5645 0.5484
0.5420 0.1327
0.0000 0.0000
X6 X7
-0.8329 -2.6545
-0.8117 -1.9402
-0.0907 -2.3451
X8 X9
0.6663 -2.0980
0.7648 -0.9426
0.5591 -0.0230
X10 X11
-1.1870 1.2976
-0.4251 0.6637
0.0000 0.1684
X12 X13
0.8187 0.9288
0.4667 0.3587
0.0000 0.0000
X14 X15
-0.6124 1.7600
-0.3648 1.0039
0.0000 0.5073
Pada Tabel 7 terlihat bahwa regresi gulud hanya menyusutkan koefisien hasil MKT ke arah nol, sedangkan LASSO dapat menyusutkan koefisien hasil MKT sampai tepat nol sehingga secara otomatis peubahpeubah bebas tersebut akan terseleksi dari model yang terpilih. Peubah-peubah bebas yang terseleksi dari model LASSO merupakan peubah bebas yang tidak berpengaruh nyata terhadap respon dari hasil MKT, dan atau peubah bebas yang memiliki korelasi dengan peubah bebas lainnya. Dengan demikian, metode LASSO dapat menyederhanakan model dan secara tidak langsung masalah multikolinearitas dapat teratasi. Peubah-peubah bebas yang berpengaruh nyata terhadap balita penderita gizi buruk dari hasil MKT seperti X7, X11, dan X15 tetap masuk dalam model LASSO yang terpilih. Akan tetapi, tidak seluruh peubah bebas yang tidak berpengaruh nyata dari hasil MKT disusutkan sampai tepat nol. Hal tersebut dikarenakan pemilihan model terbaik dengan menggunakan validasi silang yang nilainya dapat berbeda setiap kali melakukan pemanggilan fungsinya. SIMPULAN DAN SARAN Simpulan Regresi gulud dapat mengatasi masalah multikolinearitas melalui pemilihan nilai λ
yang tepat. Regresi gulud tidak dapat melakukan seleksi peubah bebas karena hanya menyusutkan koefisien MKT ke arah nol, sehingga interpretasi akan semakin sulit jika peubah bebas yang digunakan semakin banyak. Berdasarkan data yang digunakan, metode LASSO lebih baik digunakan karena model yang dihasilkan lebih sederhana dan dapat memperbaiki masalah multikolinearitas melalui penyusutan koefisien tepat nol. Saran Saran untuk penelitian selanjutnya diharapkan dapat membandingkan metode MKT, gulud, dan LASSO dengan menggunakan simulasi untuk mengetahui sifat-sifat dari ketiga metode tersebut. DAFTAR PUSTAKA Aunuddin. 2005. Statistika: Rancangan dan Analisis Data. Bogor: IPB Press. [BPS]Badan Pusat Statistik. 2011. Perkembangan Beberapa Indikator Utama Sosial-Ekonomi Indonesia. http://www.bps.go.id/hasil_publikasi/flip _2011/3101015/index11.php?pub=Perke mbangan%20Beberapa%20Indikator%20 Utama%20SosialEkonomi%20Indonesia %20Edisi%20November%202011 [30 Jun 2012]. Chatterjee S, Hadi AS. 2006. Regression Analysis by Example. Ed ke-4. USA: John Wiley & Sons, Inc. [Depkes] Departemen Kesehatan. 2010. Riset Kesehatan Dasar. Jakarta: Depkes RI. Dewi YS.2010.OLS, LASSO dan PLS pada Data Mengandung Multikolinearitas. Jurnal Ilmu Dasar 11(1): 83-91. Draper N, Smith H. 1992. Analisis Regresi Terapan Edisi ke 2. Sumantri B, penerjemah. Jakarta: Gramedia Pustaka Utama. Terjemahan dari: Applied Regression Analysis. Hastie T, Tibshirani R, Friedman J. 2008. The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Ed ke-2. New York: Springer. Hoerl AE, Kennard RW. 1970. Ridge Regression: Biased Estimation for Nonorthogonal Problems. Technometrics 12(1): 55-67. Izenman AJ. 2008. Modern Multivariate Statistical Techniques: Regression, Classification, and Manifold Learning. New York: Springer. Juanda B. 2009. Ekonometrika: Pemodelan dan Pendugaan. Bogor: IPB Press.
10
Montgomery DC, Peck EA. 1992. Introduction to Linier Regression Analysis. Ed ke-2. USA: John Wiley & Sons, Inc. Pasha GR, Shah AA. 2004. Application of Ridge Regression to Multicollinear Data. Journal of Research 15(1): 97-106.
Tibshirani R. 1996. Regression Shrinkage and Selection via the LASSO. Journal of the Royal Statistical Society Series B 58(1): 267-288.
LAMPIRAN
12
Lampiran 1 Plot masing-masing peubah bebas (X) dan peubah respon (Y)
X1
X2
X3
X4
20 10 0
0
20
40
75
85
X5
20
95
40
60
X6
80
30
60
X7
90
X8
10
Y
0 40
60
80
60
X9
75
90
50
75
X10
100
10
X11
15
20
X12
20 10 0
0
40
80 20
X13
20
40
60
64
72
X14
80
40
X15
10 0 40
60
80 0
40
80
15
30
45
60
80
13
Lampiran 2 Nilai korelasi antar peubah Y
X1
X2
X3
X4
X5
X6
X7
X8
X9
X10
X11
X12
X13
X14
X15
X1
0.525
1.000
-0.494
-0.345
0.001
0.055
-0.287
-0.5
0.21
-0.176
-0.387
0.073
-0.287
-0.438
-0.362
-0.358
X2
-0.196
-0.494
1.000
0.111
-0.150
-0.057
0.048
0.223
-0.364
-0.078
0.611
-0.205
0.165
0.277
0.202
0.369
X3
-0.494
-0.345
0.111
1.000
0.586
0.471
0.698
0.655
-0.242
0.675
0.186
-0.242
0.399
0.571
0.415
0.198
X4
-0.282
0.001
-0.150
0.586
1.000
0.624
0.679
0.494
-0.175
0.731
-0.207
0.035
0.609
0.376
0.395
-0.033
X5
-0.375
0.055
-0.057
0.471
0.624
1.000
0.658
0.490
-0.220
0.654
-0.173
-0.106
0.312
0.412
0.425
-0.045
X6
-0.631
-0.287
0.048
0.698
0.679
0.658
1.000
0.752
-0.336
0.700
0.097
-0.027
0.557
0.469
0.372
0.119
X7
-0.800
-0.500
0.223
0.655
0.494
0.490
0.752
1.000
-0.518
0.698
0.184
-0.188
0.526
0.639
0.511
0.448
X8
0.530
0.210
-0.364
-0.242
-0.175
-0.220
-0.336
-0.518
1.000
-0.508
-0.061
0.163
-0.310
-0.488
-0.362
-0.362
X9
-0.596
-0.176
-0.078
0.675
0.731
0.654
0.700
0.698
-0.508
1.000
-0.217
-0.185
0.627
0.743
0.672
0.195
X10
-0.119
-0.387
0.611
0.186
-0.207
-0.173
0.097
0.184
-0.061
-0.217
1.000
0.024
0.096
0.094
-0.080
0.400
X11
0.192
0.073
-0.205
-0.242
0.035
-0.106
-0.027
-0.188
0.163
-0.185
0.024
1.000
-0.094
-0.464
-0.443
-0.522
X12
-0.331
-0.287
0.165
0.399
0.609
0.312
0.557
0.526
-0.310
0.627
0.096
-0.094
1.000
0.606
0.603
0.298
X13
-0.503
-0.438
0.277
0.571
0.376
0.412
0.469
0.639
-0.488
0.743
0.094
-0.464
0.606
1.000
0.815
0.554
X14
-0.444
-0.362
0.202
0.415
0.395
0.425
0.372
0.511
-0.362
0.672
-0.080
-0.443
0.603
0.815
1.000
0.424
X15
-0.212
-0.358
0.369
0.198
-0.033
-0.045
0.119
0.448
-0.362
0.195
0.400
-0.522
0.298
0.554
0.424
1.000
14
Lampiran 3 Koefisien regresi menggunakan metode LASSO untuk setiap tahapan Tahapan
X1
X2
X3
X4
X5
X6
X7
X8
0 1
0.00000000 0.00000000
0.00000000 0.00000000
0.0000000 0.0000000
0.00000000 0.00000000
0.00000000 0.00000000
0.00000000 0.00000000
0.0000000 -2.120658
0.0000000 0.0000000
2 3
0.02793919 0.26198708
0.00000000 0.00000000
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
0.00000000 0.00000000
-2.148598 -2.240024
0.0000000 0.2319052
4 5
0.35890897 0.39511371
0.00000000 0.00000000
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
-0.0991065 -0.1251415
-2.188189 -2.163386
0.3238946 0.3509426
6 7
0.52952827 0.62339949
0.00000000 0.00000000
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
-0.0924380 -0.0907125
-2.267452 -2.345054
0.4734736 0.5591056
8 9
0.63871524 0.71946600
0.00000000 0.00000000
0.0000000 0.0000000
0.1087190 0.4643464
0.0000000 0.0000000
-0.1289478 -0.2873433
-2.369281 -2.435426
0.5650357 0.5891777
10 11
0.75059496 0.82911204
0.03717267 0.07548259
0.0000000 0.1614031
0.5266534 0.5990276
0.0000000 0.0000000
-0.3187327 -0.4246621
-2.447390 -2.484197
0.6119289 0.6153930
12 13
0.89386774 0.90576624
0.16941189 0.17990956
0.3272887 0.3492921
0.5865779 0.5890391
0.0000000 0.0000000
-0.4471272 -0.4484388
-2.503613 -2.504679
0.6365250 0.6380897
14 15
0.93695211 1.15449169
0.21606374 0.56523828
0.4097426 1.3209366
0.5972309 0.5644759
0.0000000 0.5483645
-0.4553521 -0.8328646
-2.508435 -2.654492
0.6475368 0.6663307
Tahapan
X9
X10
X11
X12
X13
X14
X15
0
0.0000000
0.0000000
0.0000000
0.0000000
0.0000000
0.0000000
0.0000000
1 2
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
3 4
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
5 6
-0.0193468 -0.0500960
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.2573776
7 8
-0.0230298 -0.0848570
0.0000000 0.0000000
0.1683546 0.2134023
0.0000000 0.0000000
0.0000000 0.0000000
0.0000000 0.0000000
0.5073396 0.5928408
9 10
-0.3501723 -0.3748439
0.0000000 0.0000000
0.3713824 0.4085372
0.1207291 0.1359669
0.0000000 0.0000000
0.0000000 0.0000000
0.8758591 0.9286722
11 12
-0.4907445 -0.6269609
0.0000000 -0.1577275
0.4973301 0.6040460
0.2048559 0.2694688
0.0000000 0.0000000
0.0000000 0.0000000
1.0197175 1.1347230
13 14
-0.6620621 -0.7542239
-0.1799704 -0.2514741
0.6219148 0.6700121
0.2752517 0.2982096
0.0192328 0.0931897
0.0000000 -0.0346044
1.1467546 1.1834009
15
-2.0979783
-1.1869971
1.2975972
0.8186781
0.9288331
-0.6123865
1.7600484
15
Lampiran 4 Nilai ∑β /max ∑β untuk setiap tahapan LASSO Tahapan 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Tahapan
|X1| 0.000000
|X2| 0.000000
|X3| 0.000000
|X4| 0.000000
|X5| 0.000000
|X6| 0.000000
|X7| 0.000000
|X8| 0.000000
|X9| 0.000000
0.000000 0.027939
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
2.120658 2.148598
0.000000 0.000000
0.000000 0.000000
0.261987 0.358909
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
0.000000 0.099106
2.240024 2.188189
0.231905 0.323895
0.000000 0.000000
0.395114 0.529528
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
0.125142 0.092438
2.163386 2.267452
0.350943 0.473474
0.019347 0.050096
0.623399 0.638715
0.000000 0.000000
0.000000 0.000000
0.000000 0.108719
0.000000 0.000000
0.090713 0.128948
2.345054 2.369281
0.559106 0.565036
0.023030 0.084857
0.719466 0.750595
0.000000 0.037173
0.000000 0.000000
0.464346 0.526653
0.000000 0.000000
0.287343 0.318733
2.435426 2.447390
0.589178 0.611929
0.350172 0.374844
0.829112 0.893868
0.075483 0.169412
0.161403 0.327289
0.599028 0.586578
0.000000 0.000000
0.424662 0.447127
2.484197 2.503613
0.615393 0.636525
0.490744 0.626961
0.905766 0.936952
0.179910 0.216064
0.349292 0.409743
0.589039 0.597231
0.000000 0.000000
0.448439 0.455352
2.504679 2.508435
0.638090 0.647537
0.662062 0.754224
1.154492
0.565238
1.320937
0.564476
0.548365
0.832865
2.654492
0.666331
2.097978
0
|X10| 0.000000
|X11| 0.000000
|X12| 0.000000
|X13| 0.000000
|X14| 0.000000
|X15| 0.000000
sum |beta| 0.000000
|beta|/max|beta| 0.000000
1 2
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
2.120658 2.176537
0.124673 0.127958
3 4
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
2.733916 2.970099
0.160727 0.174612
5 6
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
0.000000 0.257378
3.053931 3.670365
0.179540 0.215781
7 8
0.000000 0.000000
0.168355 0.213402
0.000000 0.000000
0.000000 0.000000
0.000000 0.000000
0.507340 0.592841
4.316996 4.701799
0.253796 0.276418
9 10
0.000000 0.000000
0.371382 0.408537
0.120729 0.135967
0.000000 0.000000
0.000000 0.000000
0.875859 0.928672
6.213902 6.540493
0.365315 0.384515
11 12
0.000000 0.157728
0.497330 0.604046
0.204856 0.269469
0.000000 0.000000
0.000000 0.000000
1.019718 1.134723
7.401925 8.357338
0.435159 0.491327
13 14
0.179970 0.251474
0.621915 0.670012
0.275252 0.298210
0.019233 0.093190
0.000000 0.034604
1.146755 1.183401
8.520401 9.056428
0.500914 0.532427
15
1.186997
1.297597
0.818678
0.928833
0.612387
1.760048
17.009713
1.000000