REGRESI RIDGE ROBUST-M DENGAN PEMBOBOT WELSCH (Studi Kasus : Faktor-Faktor Yang Mempengaruhi Harga Jual Dangke Di Kecamatan Cendana, Kabupaten Enrekang) Nur Aliana Majid, Raupong2, Kresna Jaya3. Program Studi Statistika, Jurusan Matematika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Hasanuddin
[email protected]
ABSTRAK Regresi partial robust M (PRM) merupakan metode pendekatan alternatif robust dari regresi PLS sebagai metode penanganan multikolinieritas dan outlier dalam satu kasus. Metode ini menggunakan bentuk parsial (berdasarkan variabel laten) dari regresi robust dan penduga M. Regresi PRM bekerja dengan memberi bobot bagi matriks variabel X dan variabel respons y di mana bobot tersebut didapatkan berdasarkan konsep penduga M. Pada penelitian ini digunakan pembobot Fair sebagai pembobot matriks. Metode ini diterapkan pada data kemiskinan kabupaten/kota di Provinsi Sulawesi Selatan yang terdiri atas dua kriteria kemiskinan, yaitu penduduk berdasarkan pendidikan yang ditamatkan dan berdasarkan luas lantai tempat tinggal per kapita. Berdasarkan nilai π
2 diketahui bahwa metode partial robust-M dengan pembobot fair memiliki nilai π
2 50,94 %. yang lebih besar dibandingkan nilai π
2 MKT yaitu (26,01 % ), sehingga dapat disimpulkan bahwa metode partial robust-M dengan pembobot fair adalah metode yang baik dalam mengatasi masalah multikolinieritas dan outlier. Kata Kunci : Multikolinieritas, Outlier, Robust PLS, PRM, Huber,algoritma IRPLS, data kemiskinan
1
ABSTRACT
Regresssion partial robust M (PRM) is an alternative approach robust method of PLS regression as a method of handling multicollinearity and outliers in one case. This method uses a partial form (based on latent variable) on robust regression and Regression estimators M. PRM works by giving weight to the matrix variables X and y response in which the weights are obtained based on the concept of estimator M. In this study used a weighted Fair as a weighted matrix. This method is applied to data poverty, the population by educational attainment and residence based on the floor area per capita. Based on the value of R is known that methods of partial robust M with weighted fair value of π
2 (44,77%). Which is greater than the value of R MKT namely π
2 (26,01%), so it can be concluded that the method robust partial-M with weighted fair is a good method to overcome the problem of multicollinearity and outliers. Keywords: Multicollinearity, Outlier, Robust PLS, PRM, Fair, IRPLS Algorithm, Poverty data.
1. Pendahuluan Analisis regresi merupakan bagian dalam analisis yang digunakan untuk memodelkan hubungan variabel respon (Y) dengan satu atau beberapa variabel prediktor (X). Apabila banyaknya variabel prediktor hanya ada satu maka disebut regresi linier sederhana, sedangkan apabila terdapat lebih dari satu variabel prediktor maka disebut sebagai regresi linier berganda. Metode yang biasa digunakan untuk mengestimasi parameter regresi antara lain adalah Metode Kuadrat Terkecil. MKT bersifat sebagai penaksir tak bias terbaik untuk parameter model regresi jika data yang digunakan memenuhi asumsi klasik. Permasalahan yang sering muncul adalah terjadinya korelasi yang tinggi antar dua atau lebih variabel prediktor (multikolinieritas) dan pengamatan yang jauh dari pusat data (outlier).
Masalah multikolinieritas dapat diatasi dengan beberapa metode, antara lain metode Regresi Komponen Utama (Principal Component Regressions/PCR),
2
Regresi Ridge (Ridge Regression), dan Regresi Kuadrat Terkecil Parsial (Partial Least Squares/PLS). Metode robust-M merupakan metode robust yang paling sederhana, baik dalam perhitungan maupun secara teroritis. Pengestimasian parameter pada metode robust-M menggunakan metode IRPLS (Iterative Reweighted Partial Least Square). Dengan menggunakan fungsi pembobot Fair pada estimasi PRM dibutuhkan cara agar resisten terhadap pencilan dan pengamatan berpengaruh (variabel prediktor) yaitu dengan mengalikan bobot pencilan dengan bobot untuk setiap pengamatan. Estimasi parameter regresi partial robust-M dengan pembobot fair menggunakan data kemiskinan Provinsi Sulawesi Selatan tahun 2013 yang mengandung masalah multikolinieritas dan pencilan.
2. Tinjuan Pustaka 2.1 Regresi Linier Berganda Secara umum persamaan regresi linier berganda dengan parameter π· dan π variabel prediktor dinyatakan dengan : π¦π = π½0 + π½1 ππ1 + π½2 ππ2 + β― + π½π πππ + ππ , π = 1,2,3, β¦ , π,
(2.1)
untuk π = 1,2,3, β¦ , π dan ππ ~π 0, π 2 Dalam bentuk matriks dinyatakan sebagai berikut : π = πΏπ· + πΊ,
(2.2)
2.2 Metode Kuadrat Terkecil Metode kuadrat terkecil (MKT) merupakan salah satu metode untuk mengestimasi parameter regresi dalam analisis regresi berganda. MKT bertujuan untuk meminimumkan jumlah kuadrat sisaan (Montgomery dan Peck, 1992). Misalkan fungsi kuadrat sisaan adalah : π π½0 , π½1 , β¦ , π½π =
π 2 π=1 ππ
=
π π=1
π¦π β π½0 β
2 π π =1 π½π πππ
dan π π· dapat juga dinyatakan sebagai berikut : π π· =
π 2 π=1 ππ
= πΊβ² πΊ = π β πΏπ· β² π β πΏπ·
Sehingga estimator kuadrat terkecil untuk parameter π· adalah:
3
π· = πΏβ²πΏ
β1
πΏβ²π
2.3 Regresi Robust-M Model regresi berganda yang melibatkan k variabel prediktor adalah π = πΏπ· + πΊ π adalah vektor pada variabel respon yang berukuran (π Γ 1), πΏ adalah matriks dari π variabel prediktor yang berukuran (π Γ π), π· adalah vektor parameter regresi yang berukuran π Γ 1 , πΊ adalah vektor sisaan yang berukuran π Γ 1 . Salah satu metode yang digunakan untuk mengestimasi parameter regresi dalam analisis regresi berganda adalah Metode Kuadrat Terkecil (MKT). Konsep dasar dari MKT adalah mengestimasi parameter regresi dengan meminimumkan kuadrat sisaan π π=1 (ππ
π½πΎπ = πππ
β ππ π·)2
(2.14)
Ketika model regresi memiliki sisaan yang tidak berdistribusi normal maka estimasi dengan MKT menjadi tidak akurat, sehingga jumlah kuadrat sisaan dari MKT diganti dengan sebuah fungsi objektif Ο dari metode estimasi yang bersifat robust yaitu estimasi-M. Metode robust yang akan digunakan yaitu metode robust-M, hal ini karena metode robust-M merupakan metode yang paling sederhana dan metode yang meminimumkan fungsi objektif dari sisaan π ππ (Montgomery dan Peck, 1992). Adapun persamaan untuk metode robust-M yaitu : π½π = min
π π=1 π(ππ
β ππ π·)2
(2.15)
dimana π yang memberikan kontribusi sisaan pada fungsi objektif. Dengan mengambil Ο(u)
=
π’2 ,
untuk
u
sembarang
fungsi
sehingga
kriteria
meminimumkan akan sama dengan persamaan (2.14). Untuk mengurangi pengaruh sisaan yang besar dipilih fungsi Ο tertentu sehingga menghasilkan estimasi robust dari kuadrat terkecil. Misalkan ri = ππ β ππ π· merupakan sisaan dari model dan π€π¦ adalah bobot dari sisaan yang didefinisikan sebagai berikut: π€π¦ =
π ππ βππ π· ππ βππ π· 2
Persamaan (2.14) dapat ditulis kembali
4
π (π π )
=
ππ 2
π½π = min
π π=1 π€π¦
ππ β π π π·
2
(2.16)
Nilai π€π¦ akan berubah pada tiap iterasinya sehingga diperoleh π½π . Estimasi-M merupakan metode untuk menganalisa data yang dipengaruhi oleh pencilan sehingga dihasilkan model yang robust atau resisten terhadap pencilan. Suatu estimasi yang resisten adalah relatif tidak terpengaruh oleh perubahan besar pada bagian kecil data atau perubahan kecil pada bagian besar data. Oleh karena itu, agar resisten terhadap tipe pencilan lain yaitu pengamatan berpengaruh (leverage point) maka bobot pada persamaan (2.16) akan dikalikan dengan bobot pengamatan berpengaruh π€π₯ yaitu : π½π = πππ
π π=1 π€π¦ π€π₯
ππ β π π π·
2
(2.17)
Pengamatan berpengaruh dapat didiagnosa berdasarkan nilai leverage, yaitu pencilan ditinjau dari nilai-nilai variabel prediktor. Semakin besar nilai leveragenya, pengamatan tersebut semakin berpotensi berpengaruh dalam estimasi parameter regresi
2.4 Metode Partial Least Square Matriks dan vektor yang digunakan dalam PLS dinotasikan dengan X dan y yang diasumsikan sebagai matriks data terpusat (mean centered) yaitu πΏ dan π. Struktur model untuk metode PLS dalam dua persamaan, yaitu (Bastien, dkk., 2004) πΏ = π»π·β² + π¬
(2.18)
dimana, πΏ : matriks meancentered dari π variabel prediktor yang berukuran π Γ π π» : matriks komponen berukuran π Γ π, π· : matriks loading berukuran π Γ π, π¬ : matriks error berukuran π Γ π, Komponen-komponen yang terbentuk sebagai prediktor baru sebagai untuk menduga parameter yang kemudian digunakan untuk memperediksi peubah respon Y.
5
π = π»π¨ + π
(2.19)
dimana, π : vektor meancentered dari π observasi variabel respon π yang berukuran π Γ 1 π¨: vektor parameter berukuran π Γ 1, π: vektor error berukuran π Γ 1, Pada metode PLS, vektor komponen yang dibentuk merupakan kombinasi linear berbobot dari variabel-variabel prediktor, sehingga dalam notasi matriks dapat dinyatakan sebagai berikut: π» = πΏπΎ
(2.20)
dimana πΎ adalah matriks berbobot berukuran π Γ π dan T adalah orthonormal. Bobot yang dipilih pada pembentukan komponen PLS pada persamaan (2.20) adalah bobot yang dapat menjelaskan variasi pada π sekaligus variasi pada π¦ yaitu melalui fungsi kovariansi antara setiap variabel prediktor dengan variabel respon. (Pawestri, 2012). Matriks komponen T yang terbentuk sudah tidak saling berkorelasi dengan kata lain orthogonal (π‘π β²π‘π =0; iβ j). Selain matriks komponen, matriks bobot W yang terbentuk adalah orthonormal (π€π β²π€π =0, π€π β²π€π =1; iβ j) (Pawestri, 2012).
2.5 Regresi Partial Robust-M Jika terdapat masalah multikolinieritas pada regresi analisis berganda, maka model yang sesuai adalah model Regresi Kuadrat Terkecil Parsial (PLS) (Sernels et al, 2005). Idenya adalah meregresikan variabel prediktor pada nilai variabel laten T yang mempunyai vektor ππ sebagai kolom dengan 1 β€ π β€ π. Model regresi laten diberikan sebagai berikut : π π = ππ π¨ + πΊ π
(2.21)
dengan mengansumsikan bahwa X dan y sebagai matriks data terpusat (mean centered) yaitu πΏ dan π. Selanjutnya vektor A diestimasi sama dengan sebelumnya yaitu dengan meregresikan variabel prediktor terhadap variabel laten menggunakan regresi robust-M yaitu metode yang meminimumkan fungsi objektif dari sisaan atau π ππ . Perbedaan utamanya terletak pada bobot π€π¦ dihitung dari sisaan, yaitu ππ = ππ β ππ π¨ dan bobot π€π₯ untuk pengamatan
6
berpengaruh akan dihitung dari skor ππ sebagai ganti dari variabel prediktor asli. Pembobot yang dibutuhkan agar resisten terhadap pencilan dan pengamatan berpengaruh adalah π€π = π€π¦ β π€π₯ 3. Metode Penelitian Variabel yang digunakan pada penelitian ini terdiri dari satu variabel respon dan enam variabel prediktor. Variabel respon Y adalah nilai Rata-rata Penduduk per kabupaten/kota Provinsi Sulawesi Selatan tahun. Data kemiskinan yang dikeluarkan oleh BPS tidak mencakup seluruh kriteria kemiskinan, sehingga peneliti hanya menggunakan enam variabel prediktor yang mencakup dua kriteria kemiskinan yaitu persentase penduduk usia 15 tahun ke atas berdasarkan pendidikan yang ditamatkan dan persentase rumah tangga berdasarkan luas lantai perkapita, dengan rincian: π1 : Penduduk usia 15 tahun ke atas yang tidak lulus SD (%) π2 : Penduduk usia 15 tahun ke atas yang lulus SD dan SMP (%) π3 : Penduduk usia 15 tahun ke atas yang lulus SMA (%) π4 : Rumah tangga dengan luas lantai perkapita β€ 8 π2 (%) π5 : Rumah tangga dengan luas lantai perkapita > 8 π2 dan β€ 15 π2 (%) π6 : Rumah tangga dengan luas lantai perkapita > 15 π2 (%) Selanjutnya data akan dianalisis menggunakan metode partial robust-M dengan pembobot Fair.
4. Hasil dan Pembahasan 4.1 Estimasi Parameter Regresi Partial Robust-M Model regresi yang digunakan adalah model regresi dalam bentuk mean centered yaitu sebagai berikut : π¦π β π¦ = π½1 π₯π1 β π₯1 + π½2 π₯π2 β π₯2 + β― + π½π π₯ππ β π₯π + ππ (4.1) persamaan (4.1) dapat pula dinyatakan dalam bentuk matriks, sebagai berikut: π = πΏπ· + πΊ
7
(4.2)
dimana π¦ : vektor variabel respon dalam bentuk meancentered berukuran π Γ 1 π : matriks variabel predikor dalam bentuk meancentered berukuran π Γ π, π½ : vektor parameter regresi berukuran π Γ 1, π : vektor error berukuran π Γ 1,
Misalkan telah terbentuk k buah komponen dari algoritma IRPLS, selanjutnya dilakukan estimasi parameter partial least squares dengan model taksirannya sebagai berikut: π = π¨ππ + π
(4.3)
dimana, π : vektor meancentered dari π observasi variabel respon π yang berukuran π Γ 1 π¨: vektor parameter berukuran π Γ 1,
π: vektor error berukuran π Γ 1,
Metode robust-M dipandang baik karena dapat meminimukan fungsi objektif dari sisaan π(ππ ) yaitu : πππ
π π=1 π
ππ = πππ
π π=1 π
π¦π β
π π =0 π‘ππ
π΄π
(4.4)
dimana bentuk fungsi objektif π(ππ ) dapat dilihat dari Tabel 2.1. Metode robustM menginginkan sisaan terstandarisasi, yaitu dengan membagi sisaan dengan estimator skala robust (π ). Persamaan (4.4) dapat dinyatakan sebagai berikut ini : πππ
π π=1 π
ππ
2
= πππ
ππ 2 π π=1 π π
= πππ
π π=1 π
ππβ
2
(4.5)
Untuk meminimumkan fungsi objektif pada persamaan (4.5), dicari turunan parsial terhadap π½π kemudian disamakan dengan nol yaitu : π
π β π=1 π (ππ )
π π΄π
π΄π = π΄π
= 0,
Mengalikan kedua ruas dengan βπ , sehingga persamaan (4.5) menjadi : π π=1 π‘ππ π
fungsi influence
π ππβ
ππβ = 0,
π = 0,1, β¦ , π
(4.6)
ini yang selanjutnya akan digunakan untuk dapat
menentukan fungsi pembobot π€π . Suatu fungsi pembobot M-Fair didefinisikan sebagai berikut :
8
π€π = π€π₯ β π€π¦ π€π¦ = π ππβ =
π€π₯ = π
π(ππβ ) = 1β‘ / 1 + ππβ /π ππβ 2
π₯π β ππππΏ1 π ππππππ π₯π β ππππΏ1 π
, π , π’ππ‘π’π 1 β€ π β€ π
Fungsi pembobot π€ππ tersebut kemudian akan menjadi diagonal utama dari matriks pembobot (πΎ) dan unsur-unsur lainnya adalah 0, untuk setiap nilai ππβ < β. Draper dan Smith (1998) telah mendefinisikan fungsi pembobot pada persamaan (2.37), sehingga persamaan (4.6) menjadi : π π=1 π‘ππ π€π
ππβ = 0
dalam notasi matriks, persamaan (4.16) menjadi : π»β² πΎπ = π»β² πΎπ»π¨ Selanjutnya, π dihitung dengan menggunakan π΄ sebagai estimasi awal dan skala π. Untuk setiap π€π yang diberikan diperoleh estimator : β²
π¨ = (π» πΎπ»)
βπ β²
π» πΎπ
(4.7)
dengan π¨ merupakan koefisien regresi berukuran π Γ 1, π»β² adalah matriks berukuran π Γ π, πΎ adalah matriks bobot berukuran π Γ π, dan π» adalah matriks komponen berukuran π Γ π, π vektor meancentered dari π observasi variabel respon π yang berukuran π Γ 1 π·π·πΉπ΄ = πΎ π»β²πΎπ»
βπ
π»β²πΎπ
kemudian dilakukan regresi antara π¦ dan π dengan bentuk model regresi seperti pada persamaan (2.22), dimana model taksirannya adalah : π = π»π¨
(4.8)
maka diperoleh persamaan π = π»(π»β² πΎπ»)βπ π»β²πΎπ
9
(4.9)
Selanjutnya, karena π» = πΏπΎ π = πΏπΎ(π»β²πΎπ»)βπ π»β²πΎπ
(4.10)
Berdasarkan persamaan maka model penduga regresinya yaitu
π = πΏπ·π·πΉπ΄ ,
dengan memisalkan π·π·πΉπ΄ = πΎ(π»β²πΎπ»)βπ π»β²πΎπ maka dari persamaan diperoleh estimasi parameter dari PRM yaitu : π·π·πΉπ΄ = πΎ(π»β²πΎπ»)βπ π»β²πΎπ
(4.11)
4.2 Penerapan Regresi Ridge Robust-M Pada Data Penjualan Dangke Estimasi parameter regresi dengan metode Partial Robust-M dihitung dengan menggunakan pembobot fair. Namun sebelum mengestimasi paremeter dengan metode Partial Robust-M, terlebih dahulu kita mengestimasi parameter dengan metode MKT sebagai nilai awal, dengan menggunakan persamaan (2.9). Dengan menggunakan program Minitab 16 diperoleh hasil estimasi parameter awal yang ditampilkan pada Tabel 4.2 seperti pada Lampiran 3 yaitu: Tabel 4.2 Hasil Estimasi Parameter dengan MKT π·πΆπ³πΊ
Variabel Bebas - 3401
Constant (π1 )
32,5
(π2 )
32,5
(π3 )
32,5
(π4 )
1,51
(π5 )
1,52
(π6 )
1,50
Sumber : Olah data primer, 2016
10
Berdasarkan hasil pengamatan dapat diketahui bahwa model regresi yang dapat dibentuk untuk estimator regresi partial robust-M dengan pembobot fair yaitu : π¦ππ
π πΉπππ = 0.3570366 β 1.502896π1 + 2.4762488π2 + 0.1996019π3 + 1.8452315π4 + 0.7723666π5 β 3.058464π6
5. Kesimpulan dan Saran 5.1.Kesimpulan
Berdasarkan hasil penelitian yang telah dilakukan dan berdasarkan penjelasan yang telah diberikan, maka dapat diambil beberapa kesimpulan sebagai berikut: 1. Estimasi regresi partial robust-M merupakan salah satu metode yang digunakan untuk mengatasi masalah multikolinieritas dan sisaan yang mengalami pencilan secara bersamaan. Metode estimasi partial robust-M ini meminumumkan fungsi objektif sisaan π ππ . Adapun rumus yang digunakan untuk estimator regresi partial robust-M adalah : βπ π·π π·πΉπ΄ = πΎ(π»β²πΎπ») π»β²πΎπ
akan berubah disetiap iterasi sesuai dengan fungsi pembobot fair. Proses iterasi π π=1
akan
ππ +1 dan
π π=1
berhenti
sampai
diperoleh
nilai
ππ +1 konvergen ke 0.
2. Pada masalah multikolinieritas dan pencilan untuk data kasus kemiskinan
Provinsi Sulawesi Selatan pada tahun 2013 ketika diolah dengan metode OLS menghasilkan model regresi linier berganda dimana tak satupun variabel variabel prediktor yang secara signifikan berpengaruh terhadap variabel variabel respon. Data tersebut selanjutnya diolah dengan menggunakan metode PRM. Sehingga terdapat tiga variabel yang secara signifikan mempengaruhi variabel rata-rata Pendududuk yaitu penambahan
11
1 penduduk usia 15 tahun ke atas yang lulus SD dan SMP (%), penambahan 1 rumah tangga rumah tangga dengan luas lantai perkapita > 8 π2 (%), dan penambahan 1 rumah tangga dengan luas lantai perkapita > 15 π 2 (%). Persamaan regresi linier berganda terbaik yang terbentuk adalah sebagai berikut:
π¦ππ
π πΉπππ = 0.3570366 + 2.4762488π2 + 1.8452315π4 β 3.058464π6
5.2 Saran Penelitian ini membahas tentang penggunaan metode regresi partial robust-M dengan pembobot fair pada data yang
mengalami masalah
multikolinieritas dan adanya pencilan (outlier) pada data. Untuk penelitian selanjutnya dapat dilakukan regresi partial robust-M dengan metode SIMPLS (Straightforward Implementation Partial Least Square) untuk mengatasi data yang mengalami masalah multikolinieritas dan pencilan (outlier). DAFTAR PUSTAKA
Badan Pusat Statistik. Publikasi: Data dan Informasi Kemiskinan Kabupaten/Kota Tahun 2013. (http://bps.go.id/Publikasi/). Diakses pada tanggal 14 Januari 2017. Cummins DJ, Andrews CW. 1995. Iteratively reweighted partial least squares regression. A performance analysis by Monte Carlo Simultan. Journal of Chemometrics. 9:489-507. Huber M, Branden KV. 2003. Robust methods for partial least squares regression. Journal of Chemometrics. 17:537-549. Myers RH. 1990. Classical and Modern Regression with Applications, 2nd Edition. PWS-Kent Publishing Company. Boston. Serneels, S., Croux, C., Filzmoser, P., dan Van Espen, P.J., (2005), Partial Robust M Regression. Chemometrics and Inteligent Labolatory Systems, 79, hal. 55-64.
12