PERBANDINGAN METODE REGRESI KOMPONEN UTAMA DAN REGRESI RIDGE DALAM MENGATASI MULTIKOLINEARITAS PADA ANALISIS REGRESI LINEAR BERGANDA Oleh La Ode Hajar Fotoro, Dr. Makkulau, S.Si., M.Si.2, Rasas Raya, S.Si., M.Si.3 1 Mahasiswa Program Studi Matematika, FMIPA UHO 2,3 Dosen Matematika, FMIPA UHO ABSTRAK Analisis regresi linier adalah teknik statistika yang dapat digunakan untuk menjelaskan pengaruh variabel bebas terhadap variabel terikat. Analisis regresi linier yang mempunyai lebih dari satu variabel bebas disebut regresi linier berganda, salah satu masalah yang muncul pada regresi berganda terjadinya hubungan kuat antara dua variabel bebas yang mengakibatkan terjadinya kolinearitas ganda (Multikolinieritas). Tujuan penelitian ini adalah untuk membandingkan regresi komponen utama dan regresi ridge dalam mengatasi masalah multikolinearitas antara variabel bebas sehingga diperoleh persamaan regresi linier berganda yang lebih baik. Ukuran perbandingan yang digunakan untuk membandingkan kedua metode tersebut dengan melihat nilai standar error terkecil. Hasil analisis menunjukan bahwa penanganan multikolinearitas dengan menggunakan regresi komponen utama manghasilkan nilai standar error yang lebih kecil dibandingkan nilai standar error yang dihasilkan oleh regresi ridge. Oleh karena itu penanganan dengan menggunakan metode regresi komponen utama lebih baik dari pada penanganan dengan menggunakan regresi ridge pada kasus penelitian ini. Kata Kunci: Multikolinearitas, Regresi Komponen Utama (RKU), Regresi Ridge (RR), Standar Error PENDAHULUAN Analisis regresi linier adalah teknik statistika yang dapat digunakan untuk menjelaskan pengaruh variabel bebas terhadap variabel terikat. Variabel bebas dinamakan dengan variabel independent dan disimbolkan dengan X sedangkan variabel terikat dinamakan variabel dependent dan disimbolkan dengan Y. Analisis regresi linier yang mempunyai lebih dari satu variabel bebas disebut regresi linier berganda, salah satu masalah yang muncul pada regresi linier berganda terjadinya hubungan antara dua variabel bebasnya. Variabel bebas yang saling berhubungan disebutkolinearitas ganda(multikolinearitas). Kolinearitas ganda menyebabkan estimator mempunyai varian yang besar, akibatnya interval estimasi cenderung lebih besar sehingga membuat variabel bebas secara statistika tidak signifikan padahal nilai koefisien determinasi tinggi sehingga sulit mendapatkan estimasi yang tepat (Widarjono, 2007). Untuk mengetahui adanya multikolinearitas yaitu dengan menghitung koefisien korelasisederhana antara sesama variabel bebas, jika terdapat koefisien korelasi sederhana yang hampir mendekati maka hal tersebut menunjukkan terjadinya masalah multikolinearitasdalam regresi. Selain itu, salah satu alat untuk mengukur adanya multikolinearitas adalah Variance Inflation Factor (VIF). VIF adalah suatu faktor yang mengukurseberapa besar kenaikan ragam dari koefisien penduga regresi dibandingkan terhadap variabelbebas yang orthogonal jika dihubungkan secara linear. Nilai VIF akan semakin besar jikaterdapat korelasi yang semakin besar diantara variabel bebas. Nilai VIF 10 dapat digunakansebagai petunjuk adanya multikolinearitas pada data. Gejala multikolinearitas menimbulkanmasalah dalam model regresi. Korelasi antar variabel bebas yang sangat tinggi menghasilkanpenduga model regresi yang berbias, tidak stabil, dan mungkin jauh dari nilai prediksinya(Bilfarsah, 2005).
Salah satu cara untuk mendapatkan koefisien regresi pada persamaan regresi linear berganda adalah melalui metode kuadrat terkecil. Metode ini menghasilkan penaksir terbaik (tak bias dan bervarians minimum) jika saja tidak ada korelasi antar variabel bebas. Namun jika hal itu terjadi, ada beberapa cara atau metode yang dapat digunakan untuk mengatasi masalah multikolinearitas diantaranya regresi komponen utama, regresi ridge, metode kuadrat terkecil parsial dan bebrapa metode lainnya. Dalam penulisan ini hanya membandingkanregresi komponen utama dan regresi ridge. Regresikomponen utama merupakan metode yang menggabungkan antara regresi linier dengan analisis komponen utama. Regresi komponen utama membentuk hubungan antara variabel terikat dengan komponen utama yang dipilih dari variabel bebas. Sedangkan regresi ridge memberikan estimasi koefisien regresi yang bias dengan memodifikasi metode kuadrat terkecil untuk mendapatkan pengurangan varian dengan menambahkan suatu tetapan dalam menstabilkan koefisien (Mardikyan & Cetin, 2008). Berdasarkkan uraian di atas maka ingin dibandingkan nilai standar error yang di hasilkan antara regresi komponen utama dan regresi ridge dalam mengatasi multikolinearitas pada analisis regresi linear berganda. TINJAUAN PUSTAKA Regresi Linier Regresi linier berganda adalah pengaruh yang didapatkan dari dua atau lebih variabel bebas dengan satu variabel terikatnya. Secara umum, model regresi linier berganda melibatkan satu variabel terikat dan variabel bebas dinyatakan sebagai berikut: Metode Kuadrat Terkecil Metode kuadrat terkecil merupakan metode yang lebih banyak digunakan dalam pembentukan model regresi atau mengestimasi parameter-parameter regresi dibandingkan
dengan metode-metode lain. Metode kuadrat terkecil adalah metode yang digunakan untuk mengestimasi nilai ̂ dengan cara meminimumkan jumlah kuadrat galat ∑ ̂) ( ̂) ( Sehingga diperoleh rumus untuk mencari estimator parameter ̂ adalah sebagai berikut: ̂ Menurut Montgomery dan Peck (1991) estimator kuadrat terkecil mempunyai sifat-sifat sebagai berikut: 1. ̂ adalah penduga tak bias bagi [ ] (̂) 2.
variansi dari ̂ adalah minimum (̂) [ ̂ (̂) ̂
(̂)
]
Uji Koefisien Regesi Uji Simultan (Uji F) Uji F pada dasarnya menunjukkan apakah semuah variabel bebas yang dimasukan dalam model mempunyai pengaruh secara bersama-sama terhadap variabel terikat. Uji F dilakukan dengan membandingkan nilai dengan nilai . Rumus hipotesis yang digunakan adalah sebagai berikut:
Statistik uji yang digunakan untuk menguji hipotesis nol adalah uji-F. ⁄ )
( (
⁄
)
Kriteria pengambilan keputusan: Tolak jika Terima jika Uji Parsial (Uji t) Uji koefisien regresi secara individu digunakan untuk menguji ada tidaknya pengaruh masing–masing variabel bebas terhadap model regresi linier.Uji hipotesis yang digunakan adalah sebagai berikut:
Statistik uji yang digunakan untuk menguji parameter regresi secara parsial adalah uji t yaitu: (̂ ) (̂ ) (̂ )
Jika | ( ̂ )| maka ditolak yang artinya variabel bebas ke-jberpengaruh nyata terhadap (Gujarati, 2004). Sedangkan untuk mengukur kecocokan suatu model regresi menurut Gujarati (2004) dapat menggunakan koefisien determinasi yang dapat dihitung menggunakan rumus sebagai berikut: Nilai yang mendekati nol menunjukkan bahwa data sangat tidak cocokdengan model regresi yang ada. Sebaliknya, jika nilai mendekati 1 menunjukkan bahwa data cocok terhadap model regresi. Dapat disimpulkan
bahwanilai yang diperoleh sesuai dengan yang dijelaskan masing-masing faktor yangtinggal di dalam regresi (Myers dkk, 1995). Multikolinearitas Istilah multikolinieritas pertama kali diperkenalkan oleh Ragnar Frisch pada tahun 1934, yang menyatakan bahwa multikolinieritas terjadi jika adanya hubungan linieryang sempurna (perfect) atau pasti (exact) diantara beberapa atau semua variabelbebas dari model regresi berganda (Rahardiantoro, 2008). Ada beberapa cara untuk mengetahui ada tidaknya multikolinieritas diantaranya adalah: 1) Nilai Korelasi (korelasi antar variabel bebas) Jika elemen | | mendekati satu atau | | maka dan adalah benar-benar masalah multikolinieritas. [
] ∑
(
̅ √
)(
̅ √
)
Untuk menghasilkkan 2) VariansiInflasiFaktor (VIF) VIF adalah merupakan elemen diagonal utama dari invers matriks korelasi. VIF digunakan sebagai kriteria untuk mendeksi multikolinieritas pada regresi linier berganda yang melibatkan lebih dari dua variabel bebas. VIF yang melebihi 10, maka multikolinieritas dikatakan ada. VIF untuk koefisien regresi-j didefinisikan sebagai berikut : Koefisien determinasi antar dengan variabel bebas lainnya; Analisis Komponen Utama (AKU) AKU merupakan teknik statistik yang digunakan untuk menjelaskan struktur variansi-covariansi dari sekumpulan variabel melalui beberapa variabel baru, dimana variabel baru ini saling bebas dan merupakan kombinasi linier dari variabel asal. Selanjutnya variabel baru ini dinamakan komponenutama. AKUbertujuan untukmenyederhanakan variabel yang diamati dengan cara menyusutkan dimensinya. Hal ini dilakukan dengan menghilangkan korelasi variabel melalui transformasi variabel asal ke variabel baru yang tidak berkorelasi. Komponen utama dapat ditentukan melalui matriks varian-covarian ∑ dan matriks matriks korelasi dari . Matriks kovarian digunakan untuk membentukkomponen utama apabila semua variabel yang diamati mempunyai satuan pengukuran yang sama. Sedangkan, matriks korelasi digunakan apabila variabel yang diamatitidak mempunyai satuan pengukuran yang sama. Variabel tersebut perlu dibakukan,sehingga komponen utama berdasarkan matriks korelasi ditentukan dari variabel baku.
Misalkan∑merupakan matriks varian-covariansi dari buah variabel total varian dari variabel– variabel tersebut didefinisikan sebagai ∑ Trace ∑ yaitu penjumlahan dari unsur diagonal matriks ∑. Melalui matriks varian-covariansi (∑) bisa diturunkan nilai eigen yaitu dan vektor eigen komponen utama pertama dari vektor berukuran p 1, adalah kombinasi linier terbobot variabel asal yang dapat menerangkan keragaman terbesar. Komponen utama berdaasarkan matriks covariansi adalah sebagai berikut:
simpangan baku variabel b. Menghitung nilai eigen vektor eigen ( dan skor komponen utama c. Meregresikan Variabel terikat dengan skor komponen utama yang terpilih ̂ d. Mentransformasikan persamaan regresi komponen utama dengan variabel bebas ke variabel bebas ̂ f. Mentransformasikan persamaan regresi dengan variabel bebas ke variabel bebas ̂ e. Menduga koefiien regresi dengan metode regresi komponen utama terhadap variabel bebas . Varian koefisien regresi variabel bebas adalah: ∑
Komponen utama yang diperoleh dari matriks korelasidari variabel yang distandarkan yaitu: ̅
̅
∑
f. Pengujian keberartian regresi, dilakukan dengan menggunakan uji dengan statistik uji: √
Kontribusi Komponen Utama Besarnya proporsi keragaman total populasi yang dapat dijelaskan oleh komponen utama ke-i sebesar: Proporsi ∑ dengan Komponen utama yang digunakan untuk analisis selanjutnya dapat diperoleh dengan menggunakan kriteria presentase keragaman kumulatif yang dirumuskan:
Banyaknya komponen utama dianggap cukup mewakili jika dapat menerankan keagaman kumulatif sebesar dan keragaman total populasi (Johnson & Wichern, 2007). Penerapan AKU dalam Analisis Regresi a. Variabel bebas asal distandarisasikan Apabila variabel yang digunakan berukuran satuan yang berbeda ataupun terdapat perbedaan yang sangat besar, maka harus dilakukan terlebih dahulu distandarisaikan variabel Z di peroleh dari trnsformasi terhadap variabel asal menjadi:
dan
̅ √
Pada regresi ridge diubah menjadi persamaan tanpa koefisien interesep variabel bebas dan variabel terikat dalam bentuk baku maka diperoleh model sebagai berikut: Maka persamaan di atasdalam bentuk matriks sebagai berikut: Penduga regresi baku ridge diperoleh dengan memasukan kostanta pembiasan c kedalam persamaan normal MKT dan matriks korelasi variabel bebas dan variabel terikat . Langkah awal untuk menentukan penduga regresi baku ridge adalah meminimumkan jumla kuadrat galat untuk model pada persamaan dengan menggunakan metode pengali langrange yang meminimumkan fungsi: dengan syarat pembatas
̅ ∑
̅ √
∑
Keragaman kumulatif
̅
(Mattjik & Sumertajaya, 2011) Regresi Ridge Menurut Dereny dan Rashwan (2011), teknik ridge didasarkan pada penambahan konstanta bias pada diagonal matriks sehingga koefisien penduga ridge dipengaruhi oleh besarnya tetapan bias c, dimana nilai c bernilai antara 0 sampai 1.Dalam regresi ridge variabel bebas dan variabel terikat ditransformasikan ke dalam bentuk baku (standarisasi) ke dalam dan .Ditransformasikan dengan rumus sebagai berikut:
dan
∑
̅
dimana: variabel baku ̅ rata-rata pengamatan variabel
Sehingga diperoleh estimator regresi ridge yaitu ̂
METODE PENELITIAN Waktu dan Tempat Penelitian ini berlangsung pada bulan Maret sampai Mei 2016. Kegiatan penelitian bertempat di Lab. Komputasi Matematika, Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Halu Oleo. Sumber Data Data yang digunakan sebagai contoh kasus dalam penelitian ini adalah data sekunder, mengenai produksi usaha tani kol bulat.Variabel terikat dan variabel bebas yang digunakan dalam penelitian ini adalah: Hasill produksi (Kg), Benih (Ml), Pupuk Urea (Kg), Pupuk TSP (Kg), Pupuk KCL (Kg), Pestisida (Kg), Curahan Hasil Kerja (HKP) Langkah-langkah Analisis Data Langkah-langkah analisis data yang dilakukan sebagai berikut: 1. Melakukan analisis regresi untuk menentukan model regresi dengan metode kuadrat terkecil. 2. Melakukan pemeriksaan asumsi nonmultikolinieritas dengan[ cara melihat nilai nilai VIF dan nilai korelasi antar variabel bebas. 3. Melakukan penanganan terhadap masalah multikolinieritas apabila asumsi nonmultikolinieritas tidak terpenuhi yaitu: A. Metode Regresi Komponen Utama a. Menghitung nilai akar ciri ( , vektor ciri ( ) dan skor komponen utama ( ). b. Meregresikan variabel bebas baru tersebut terhadap variabel terikat ( ) c. Mentransformasikan persamaan regresi komponen utama dengan variabel bebas ke variabel bebas d. Mentransformasikan persamaan regresi dengan variabel bebas kevariabel bebas e. Menghitungstandarerroruntukmasingmasingkoefisienregresi f. Pengujian koefisien regresi, dan melakukan pengujian dengan menggunakan uji B. Metode Regresi Ridge a. Penentuan nilai c ditentukan berdasarkan plot kecendurungan ridge trace dan penentuan VIF. b. Pendugaan koefisien regresi dengan metode regresi ridge terhadap variabel bebas c. Menghitung standar error koefisien regresi untuk regresi ridge dan melakukan pengujian 4. Membandingkan hasil standar error yang diperoleh antara regresi komponen utama dengan regresi ridge untuk memilih metode terbaik. 5. Menyimpulkan hasil yang diperoleh. HASIL DAN PEMBAHASAN 4.1 Pendugaan Model Regresi Pendugaan nilai koefisien regresi yang diduga dengan menggunakan metode kuadrat terkecil dinperoleh sebagai berikut: ̂
Uji signifikan regresi berdasarkan uji simultan yang diperoleh yaitu 163,4 sedangkan yaitu 2,36 dengan taraf se besar 0.05 koefisien regresi signifikan dimana ( ) yaitu ( . Sedangkan uji koefisien regresi secara parsial dapat dilihat dalam tabel 4.1. Tabel 4.1. Uji koefisien regresi secara individu Variabel Bebas
Koefisien Regresi Dugaan 22,4 3,43 8,6 0,57 0,438 30,4
Standar error 10,296 2,912 12,589 12,205 0,635 8,587
2,18 1,18 0,68 0,05 0,69 3,5
2,048
Berdasarkan Tabel 4.1 terlihat bahwa dengan se besar 0.05 terdapat dua koefisien regresi yang signifikan ( ) yaitu koefisien regresi ( dan ( serta ada empat koefisien regresi yang tidak signifikan ( ) yaitu ( , ( ( dan ( hanya sedikit koefisien regresi yang signifikan. Pada nilai koefisien determinasi menunjukan nilai yang tinggi yakni 97,2% tetapi hal ini bertolak belakang dengan sedikinya koefisien regresi yang signifikan ( dan ( . Pendeteksian Multikolinieritas Nilai Korelasi Berdasarkan nilai korelasi antar variabel bebas sangat tinggi. Hal ini menunjukkan bahwa ada multikolineaitas diantara enam variabel bebas . Ini dapat dilihat dari tingginya nilai koefisien korelasi mendekati satu diantaranya koefisien korelasi dan yaitu sebesaar koefisien korelasi antara dan yaitu sebesar serta koefisien korelasi antara dan yaitu sebesar 0,946 VIF Terdapat tiga variabel bebas yang mempunyai nilai VIF lebih dari 10 yaitu dan (nilai VIF masing-masing 27,681, 12,962, dan 18,551) yang menandakan terjadinya multikolinieritas pada variabel bebas. Metode Regresi Komponen Utama Langkah pertama yang dilakukan yaitu melakukan analisis komponen utama dengan menggunakan software Minitab 14 berdasarkan matriks korelasidan diperoleh komponen utama sebagai berikut:
0,05
Membuat model regresi menggunakan skor komponen utama dengan variabelterikat dan diperoleh model regresi sebagai berikut: ̂ Hasil dari persamaan regresi komponen utama dengan dua komponen utama tersebut ditransformasikan kembali dari variabel bebas kevariabel bebas dan hasil adalah sebagai berikut: ̂
Dari berbagai nilai c yang ada nilai VIF tampak ada penurunan pada 0,02. Nilai yang memberikan nilai VIF relatif dekat dengan 1, yaitu pada ini menunjukan bahwa pada koefisien ̂ lebih stabil dengan demikian persaman regresi ridge yang diperoleh jika c yang diambil sebesar 0,02 yaitu: ̂ Mengembalikan persamaan yang diperoleh kebentuk variabel asli sehingga diperoleh regresi ridge sebagai berikut: ̂
Uji koefisien regresi secara individu menggunakan uji t seperti pada Tabel sebagai berikut: Variabel Bebas
Koefisien Regresi 215,796 58,364 86,479 40,608 223,822 240,457
Standar Error 0,001676 0,001974 0,000556 0,000442 0,018585 0,001645
128756,6 29566,36 155537,8 91873,3 12043,15 146174,5
2,048 2,048 2,048 2,048 2,048 2,048
Persamaan regresi yang diperoleh dari variabel standar di kembalikan ke bentuk variabel asli sehingga diperoleh model regresi komponen utama sebagai berikut: ̂ Metode Regresi Ridge Sebelum regresi ridge dibentuk, perlu dilakukan pentransformasian untuk meminimumkan kesalahan pembulatan dan menganggap regresi sudah dipenuhi kenormalanya. Dalam proses pengestimasian regresi ridge, pemilihan tetapan bias c merupakan hal yang paling penting dalam penelitian ini, penentuan tetapan bias c ditempuh melalui pendekatan nilai VIF dan Ridge Trace dapat dilihat pada gambar sebagai berikut:
Uji koefisien regresi ridge secara individu menggunakan uji t yang dapat dilihat pada Tabel sebhbagai berikut: Tabel 4.2. Uji koefisien regresi ridge secara individu Variabel Bebas
Gambar 4.2: VIF
Standar Error 0,104619 0,056494 0,064788 0,053848 0,092523 0,093856
3,208395 1,153645 0,839855 -0,01614 1,445848 4,575673
2.048 2.048 2.048 2.048 2.048 2.048
Berdasarkan Tabel 4.12 terlihat bahwa dengan se besar 0.05 terdapat dua koefisien regresi yang signifikan ( ) yaitu koefisien regresi ( dan ( serta ada empat koefisien regresi yang tidak signifikan ( ) yaitu , , dan hanya sedikit koefisien regresi yang signifikan. Pemilihan metode terbaik Pemilihan metode terbaik untuk mengatasi masalah multikolinearitas antara regresi komponen utama dan regresi ridge didasarkan pada standar error yang dapat dilihat pada Tabel 4.14. Tabel 4.3. Hasil perbandingan RKU dan regresi ridge Variabe l Bebas
Gambar 4.1:Ridge trace
Koefisien Regresi 0,33565940 0,06517451 0,05441249 -0,0008692 0,1337743 0,4294537
Estimasi Parameter Regresi RKU Ridge 18,6396 0,3356594 4,280075 0,0651745 22,51623 0,0544124 13,28769 -0,0008692 1,743353 0,1337743 21,15824 0,4294537
standar error Regresi RKU Ridge 0,001676 0,104619 0,001974 0,056494 0,000556 0,064788 0,000442 0,053848 0,018585 0,092523 0,001645 0,093856
Berdasarkan Tabel 4.3 dapat dilihat bahwa regresi komponen utama menghasilkan standar error yang lebih kecil dibandingkan nilai standar error yang dihsasilkan regresi ridge oleh karena itu dapat disimpulkan bahwa regresi komponen utama lebih baik dibandingkan dengan metode regresi ridge dalam mengatasi masalah multikolinearitas.
KESIMPULAN DAN SARAN Kesimpulan Dari hasil analisis dan pembahasan bab sebelumnya, maka dapat ditarik kesimpulan yaitu: 1. Estimasi yang diperoleh dengan menggunakan metode regresi komponen utama yaitu: ̂ Sedangkan Estimasi yang diperoleh menggunakan metode regresi rdge yaitu:
dengan
̂ 2. Dengan melihat ukuran perbandingan yang digunakan yakni nilai standar error metode regresi komponen utama lebih baik menangani kasus multikolinearitas dibandingkan dengan regresi ridge pada contoh kasus penelitian ini. 5.2 Saran Peneliti yang berkeinginan melanjutkan pengembangan tulisan ini diharapkan dapat menggunakan metode yang berbeda misalnya dengan menggunakan metode kuadrat kecil parsial sebagai metode pembanding serta menggunakan data riil. DAFTAR PUSTAKA [1] Gujarati, D. 2004. Ekonometrika Dasar. Sumarno Zain Penerjemah. Jakarta:Erlangga. Terjemahan dari: Basic Econometrics. [2] Kutner, M. H., Nachtsheim, C.J. & Neter, J.L.W. 2005. Applied Linear Statistical Models. Fifth Edition.New York: McGraw-Hill. [3] Mattjik, A.A. &Sumertajaya, M.I. 2011. Sidik Peubah Ganda Dengan menggunakan SAS,Departemen Statistika, Institut Pertanian Bogor. [4] Mardikyan, S. & Cetin, E. 2008. Efficient Choice of Biasing Constant for Ridge Regression. Int. J. Contemp. Math. Sciences Vol. 3 No.11 Hal. 527 – 536. [5] Widarjono, A. 2007. Ekonometrika Teori dan Aplikasi untuk Ekonomi dan Bisnis.Yogyakarta: Ekonisia FE UII.