IDENTIFIKASI MULTIKOLINEAR PADA MODEL REGRESI LOGISTIK ORDINAL UNTUK STATUS GIZI ANAK DI KELURAHAN KARANGKITRI, BEKASI TIMUR Margaretha Ohyver Mathematics & Statistics Department, School of Computer Science, Binus University Jl. K.H. Syahdan No. 9, Palmerah, Jakarta Barat 11480
[email protected]
ABSTRACT Multicollinearity often comes out when making modeling using regression. Multicollinearity causes difficulty in separating the effect of each independent variable on the response variable. It can also occur in the ordinal logistic regression, especially in modeling for the nutritional status of children in Karangkitri village, West Java. Due to these conditions, this study aims to identify multicollinearity in the modeling. The result is a multicollinearity case in the data of children’s nutritional status. It is indicated by the unknown real influence value of the variables of child's age, family economic status, and height. In addition, the standard error of the coefficient of prediction regression gets enlarged, and the correlation coefficient value between the variables of age and height is very high. Keywords: multicollinearity, ordinal logistic regression, children’s nutritional statu
ABSTRAK Multikolinear merupakan kasus yang sering terjadi ketika membuat pemodelan dengan menggunakan regresi. Multikolinier menyebabkan kesulitan dalam memisahkan pengaruh masingmasing variabel bebas terhadap variabel respon. Hal ini dapat juga terjadi dalam regresi logistik ordinal, khususnya dalam pemodelan untuk status gizi anak di kelurahan Karangkitri, Jawa Barat. Berdasarkan hal tersebut maka tujuan dari makalah ini adalah mengidentifikasi adanya multikolinear dalam pemodelan tersebut. Hasil yang diperoleh adalah terjadi kasus multikolinear dalam data status gizi anak. Hal ini ditunjukkan dengan tidak diketahui nilai pengaruh yang sebenarnya dari variabel usia, status ekonomi keluarga, dan tinggi badan anak. Selain itu, standard error koefisien regresi dugaan menjadi membesar, dan juga terdapat nilai koefisien korelasi yang sangat tinggi antara variabel usia dan tinggi. Kata kunci: multikolinear, regresi logistik ordinal, status gizi anak
Identifikasi Multikolinear pada …... (Margaretha Ohyver)
105
PENDAHULUAN Pemodelan dengan regresi telah banyak digunakan. Mulai dari bidang sosial, ekonomi, kimia, kesehatan, dan sebagainya. Dengan model regresi yang dihasilkan, dapat diketahui variabel-variabel yang secara signifikan mempengaruhi variabel yang lain. Untuk bisa memperoleh variabel-variabel yang berpengaruh tersebut, model yang diperoleh harus dapat memenuhi asumsi-asumsi yang berlaku di dalam regresi. Salah satu asumsi yang harus dipenuhi adalah tidak terjadinya masalah multikolinear. Masalah ini sering terjadi ketika membuat pemodelan dengan regresi linear ganda. Akan tetapi seperti yang dikatakan oleh Hoyo, et al. (2011) bahwa untuk mengaplikasikan metode regresi logistik perlu dicek masalah multikolinear. Oleh karena itu, ketika membuat pemodelan tersebut maka salah satu yang harus dilakukan yang berkaitan dengan model adalah mengecek multikolinear. Pemodelan regresi dengan skala ordinal dapat dilakukan dengan regresi logistik ordinal. Pemodelan ini telah banyak digunakan dalam berbagai penelitian. Das dan Rahman (2011) mengembangkan model regresi logistik biner dan regresi logistik ordinal untuk mengidentidikasikan faktor-faktor yang menyebabkan malnutrisi di Bangladesh. Hasilnya adalah regresi logistik ordinal lebih tepat dalam menentukan penyebab malnutrisi dibandingkan regresi logistik biner. Norris et al (2006) membandingkan regresi linear, regresi logistik biner, dan regresi logistik ordinal. Hasil yang diperoleh adalah model regresi linear dan regresi logistik ordinal menghasilkan taksiran parameter yang lebih stabil jika dibandingkan taksiran yang diperoleh regresi logistik biner. Penelitian mengenai pelanggaran asumsi pun telah banyak dilakukan. Ohyver (2011) menggunakan metode regresi ridge untuk mengatasi multikolinier yang terjadi pada variabel-variabel yang mempengaruhi produksi kol bulat. Ashok, Mitra, dan Mitra (2005) melakukan pendeteksian multiple outlier dengan menggunakan self-organizing maps title. Francisco-Fernandez dan VilaiFernandez (2008) melakukan pengujian adanya heteroskedastisitas dalam regresi non parametrik. Berdasarkan uraian di atas maka makalah ini akan membahas identifikasi mengenai adanya multikolinear pada model regresi logistik ordinal yang diperoleh untuk status gizi anak di kelurahan Karangkitri, Jawa Barat. Sehingga tujuan yang hendak dicapai adalah mengidentifikasi adanya multikolinear pada model regresi logistik ordinal untuk status gizi anak di kelurahan Karangkitri, Bekasi Timur, Jawa Barat.
METODE Data yang akan digunakan adalah data sekunder. Data ini diperoleh Yongharto, Suroso, dan Ohyver (2012). Data ini merupakan data mengenai perkembangan anak di kelurahan Karangkitri, Bekasi Timur, Provinsi Jawa Barat. Ada 3660 anak dari 40 posyandu. Variabel yang digunakan adalah usia ( X1 ) , jenis kelamin ( X 2 ) , status ekonomi keluarga ( X 3 ) , and tinggi badan ( X 4 ) sebagai variabel bebas, and status gizi anak sebagai variabel respon (Y ) . Status gizi anak akan terbagi menjadi 4 kategori yaitu, gizi lebih, gizi baik, gizi kurang baik, dan gizi sangat kurang baik. Untuk membuat pemodelan dari data tersebut akan digunakan metode regresi logistik ordinal. Misalkan terdapat sebuah variabel bebas kuantitatif, X . Untuk variabel respon biner, Y , maka π ( X ) menyatakan peluang “sukses” pada nilai X (Agresti, 2007). Model regresi logistik memiliki bentuk logit seperti pada persamaan (1).
106
Jurnal Mat Stat, Vol. 13 No. 2 Juli 2013: 105-111
⎛ π ( X) ⎞ Logit ⎡⎣π ( X ) ⎤⎦ = Log ⎜ ⎜ 1 − π ( X ) ⎟⎟ ⎝ ⎠
(1)
dengan,
⎛ π ( X) ⎞ Logit ⎡⎣π ( X ) ⎤⎦ = Log ⎜ ⎜ 1 − π ( X ) ⎟⎟ ⎝ ⎠
(2)
Misalkan terdapat p variabel bebas. Maka persamaan (2) akan berubah menjadi seperti persamaan (3). exp (α + β1 X1 + L + β p X p ) π ( X) = 1 + exp (α + β1 X 1 + L + β p X p ) =
1
(
(3)
)
1 + exp ⎡ − α + β1 X 1 + L + β p X p ⎤ ⎣ ⎦
Regresi logistik ordinal merupakan salah satu teknik untuk menganalisis variabel respon ordinal. Model regresi ini disebut model logit kumulatif. Misalkan
variabel
respon
memiliki
j
kategori
ordinal.
Maka,
akan
terdapat
Y ≥ 1 vs Y < 1; Y ≥ 2 vs Y < 2,L, Y ≥ j − 1 vs Y < j − 1 (Kleinbaum dan Klein, 2010). Dengan demikian akan
diperoleh persamaan (4). odds (Y ≥ j ) =
P (Y ≥ j )
(4)
P (Y < j )
Peluang kumulatif untuk kategori j akan diperoleh sebagai berikut. P (Y ≤ j ) = π1 + L + π j , j = 1,L, J
(5)
Secara berurutan akan diperoleh seperti persamaan (6). P (Y ≤ 1) ≤ P (Y ≤ 2 ) ≤ L ≤ P (Y ≤ J ) = 1
(6)
Logit dari peluang kumulatif adalah sebagai berikut. ⎡ P (Y ≤ j ) ⎤ Logit ⎡⎣ P (Y ≤ j ) ⎤⎦ = Log ⎢ ⎥ ⎣⎢ 1 − P (Y ≤ j ) ⎦⎥
⎡ π1 + L + π j = Log ⎢ ⎢⎣ π j +1 + L + π J
⎤ ⎥ ⎥⎦
(7)
Kemudian,
Logit ⎡⎣ P (Y ≤ j ) ⎤⎦ = α j + β X
(8)
Multikolinear sering ditemukan terjadi dalam model regresi ganda. Ohyver et al (2005) menyebutkan bahwa multikolinear merupakan korelasi antara variabel bebas. Adanya multikolinear ini dapat mengakibatkan variance dari koefisien dugaan membesar sehingga pengaruh masing-masing variabel bebas tidak dapat dipisahkan. Ada beberapa masalah yang sering muncul jika variabel-variabel bebas yang disertakan ke dalam model regresi ganda berkorelasi satu sama lain (Myers dalam Ohyver et al, 2005), di antaranya: (1) penambahan atau pengeluaran suatu variabel bebas akan mengubah koefisien regresi; (2) jumlah
Identifikasi Multikolinear pada …... (Margaretha Ohyver)
107
kuadrat ekstra yang berasal dari suatu variabel bebas berubah-ubah, bergantung pada variabel bebas mana yang sudah ada di dalam model regresi; (3) galat baku (standard error) dugaan koefisienkoefisien regresi menjadi besar bila variabel-variabel bebas berkorelasi tinggi; (4) secara individual koefisien-koefisien regresi dugaan mungkin tidak nyata secara statistik walaupun tampak jelas adanya hubungan statistik antara variabel respon dengan variabel-variabel bebas. Selain 4 hal di atas, Ohyver et al (2005) juga menyatakan bahwa multikolinear juga dapat menyebabkan kesalahan tanda (positif atau negatif) dari koefisien regresi dugaan. Langkah-langkah pengolahan data adalah sebagai berikut. Pertama, membentuk model regresi logistik ordinal. Kedua, mengecek variabel yang signifikan. Ketiga, membentuk model regresi logistik ordinal dengan hanya menggunakan variabel bebas yang signifikan. Keempat, melakukan identifikasi multikolinear.
HASIL DAN PEMBAHASAN Metode yang digunakan adalah metode regresi logistik ordinal. Hal ini disebabkan skala dari variabel respon, yaitu status gizi anak, adalah ordinal. Status ini berbentuk peringkat, misalnya kandungan gizi yang terdapat pada anak status gizi baik lebih tinggi dibandingkan yang dimiliki oleh anak status gizi kurang baik. Berdasarkan data diketahui bahwa ada sekitar 45,4% anak yang memiliki status gizi tidak baik. Persentase tersebut terdiri atas 51,2% perempuan dan 48,8% laki-laki. Perbandingan berdasarkan jenis kelamin dapat dilihat pada Gambar 1. Berdasarkan status ekonomi keluarga diketahui mayoritas anak yang memiliki status gizi tidak baik berasal dari keluarga kurang mampu.
Gambar 1 Perbandingan Status Gizi Anak Perempuan dan Laki-laki
Analisis regresi logistik akan digunakan untuk menentukan variable bebas yang mempengaruhi status gizi anak. Analisis ini akan dilakukan secara individu dan simultan. Hasil lengkapnya dapat dilihat pada Tabel 1. Pada Tabel 1 diketahui bahwa variabel usia secara signifikan mempengaruhi status gizi anak. Hal ini ditunjukkan oleh nilai p value. Model logitnya dapat dilihat pada persamaan-persamaan berikut. Logit ⎡⎣ P (Y ≤ 1) ⎤⎦ = −3.592 + 0.019 X1 (9) Logit ⎡⎣ P [Y ≤ 2]⎤⎦ = −1.266 + 0.019 X1
(10)
Logit ⎡⎣ P (Y ≤ 3) ⎤⎦ = 1.440 + 0.019 X1
(11)
108
Jurnal Mat Stat, Vol. 13 No. 2 Juli 2013: 105-111
Persamaan (9), (10), dan (11), menunjukkan pengaruh usia terhadap masing-masing kategori. Selanjutnya, dengan menggabungkan persamaan-persamaan tersebut dengan persamaan (3) dan (5), akan diperoleh peluang kumulatif yang dapat dilihat pada persamaan (12), (13), dan (14).
Tabel 1 Hasil Regresi Logistik Ordinal secara Individu Variabel Constant 1 Constant 2 Constant 3 Usia Constant 1 Constant 2 Constant 3 Jenis Kelamin Laki-laki Constant 1 Constant 2 Constant 3 Status Ekonomi Kurang mampu Constant 1 Constant 2 Constant 3 Tinggi
Koefisien Dugaan -3.592 -1.266 1.440 0.019 -2.999 -0.705 1.946
P Value 0.000 0.000 0.000 0.000 0.000 0.000 0.000
-0.034 -3.123 -0.809 1.869
0.591 0.000 0.000 0.000 0.000
0.744 -2.681 -0.386 2.269 -0.004
0.000 0.012 0.000 0.025
exp ( −3.592 + 0.019 X1 ) Pˆ (Y ≤ 1) = 1 + exp ( −3.592 + 0.019 X1 )
(12)
exp ( −1.266 + 0.019 X1 ) Pˆ (Y ≤ 2 ) = 1 + exp ( −1.266 + 0.019 X1 )
(13)
exp (1.440 + 0.019 X1 ) Pˆ (Y ≤ 3) = 1 + exp (1.440 + 0.019 X1 )
(14)
Dengan menggunakan persamaan (12), (13), dan (14), nilai peluang untuk masing-masing kategori dapat dihitung. Sebagai contoh, πˆ3 = Pˆ (Y ≤ 3) − Pˆ (Y ≤ 2) . Persamaan (9)-(14) dapat diterapkan untuk variabel status ekonomi keluarga dan tinggi badan anak. Sedangkan untuk jenis kelamin, karena nilai p value lebih besar dari nilai alpha maka variabel tersebut tidak digunakan. Selanjutnya variabel yang signifikan, variabel usia, status ekonomi keluarga, dan tinggi badan anak, digunakan untuk membentuk model regresi logistik secara simultan. Hasil lengkapnya dapat dilihat pada Tabel 2. Pada Tabel 2 diketahui bahwa ketiga variabel bebas yang digunakan secara signifikan mempengaruhi status gizi anak. Model logit lengkapnya dapat dilihat pada persamaan (15), (16), dan (17).
Identifikasi Multikolinear pada …... (Margaretha Ohyver)
109
Tabel 2 Hasil Regresi Logistik Ordinal secara Simultan Variabel Constant 1 Constant 2 Constant 3 Usia Status Ekonomi Kurang Mampu Tinggi
Koefisien Dugaan 3.986 6.579 9.628 0.117 0.373 -0.127
Standard Error 0.341 0.346 0.367 0.005 0.107
P Value 0.000 0.000 0.000 0.000 0.000
0.006
0.000
Logit[ P (Y ≤ 1)]
(15)
= 3.986 + 0.117 X 1 + 0.373 X 3 − 0.127 X 4 Logit[ P (Y ≤ 2 )]
(16)
= 6.579 + 0.117 X 1 + 0.373 X 3 − 0.127 X 4
Logit[ P (Y ≤ 3)]
(17)
= 9.628 + 0.117 X 1 + 0.373 X 3 − 0.127 X 4
Dengan hasil yang diperoleh di atas maka ada hal-hal yang perlu diperhatikan oleh masyarakat dan pemerintah. Pertama, orang tua harus mengetahui bahwa usia, status ekonomi keluarga, dan tinggi badan, mempengaruhi status gizi anak. Secara khusus adalah mengenai status ekonomi keluarga. Orang tua harus lebih fokus dalam menghidupi keluarga sehingga gizi anak dapat terpenuhi. Pemerintah juga harus turut aktif dalam mendukung hal ini. Pemerintah dapat menyelenggarakan seminar dan membuat pemberitahuan kepada masyarakat mengenai status gizi anak ini. Selain itu pemerintah juga dapat membantu dengan menyediakan lapangan pekerjaan serta melakukan peningkatan kesejahteraan tenaga kerja. Tindakan-tindakan pemerintah ini harus dapat menjangkau daerah-daerah terpencil juga. Sebab tidak tertutup kemungkinan jumlah anak yang menyandang status gizi tidak baik lebih besar lagi. Setelah dilakukan mengenai pembahasan hal tersebut di atas, selanjutnya akan dilakukan identifikasi mengenai model yang diperoleh. Dalam beberapa literatur, dikatakan bahwa untuk pemodelan regresi logistik tidak diperlukan asumsi-asumsi yang mengikat seperti di pemodelan regresi biasa. Walaupun demikian, makalah ini akan tetap membahas mengenai hal tersebut. Salah satu asumsi regresi yang akan coba diindetifikasi adalah asumsi multikolinear. Berikut akan dilakukan identifikasi multikolinear untuk data status gizi anak. Pertama, akan dilakukan pemodelan regresi dengan hanya menggunakan variabel bebas usia dan status ekonomi keluarga. Hasilnya dapat dilihat pada Tabel 3.
Tabel 3 Pemodelan Regresi Logistik Ordinal dengan 2 Variabel Bebas Variabel Constant 1 Constant 2 Constant 3 Usia Status Ekonomi Kurang Mampu
110
Koefisien Dugaan -3.635 -1.293 1.429 0.017 0.618
Standard Error 0.100 0.068 0.07 0.02
P Value 0.000 0.000 0.000 0.000 0.000
0.104
Jurnal Mat Stat, Vol. 13 No. 2 Juli 2013: 105-111
Jika dilakukan perbandingan antara hasil yang diperoleh pada Tabel 2 dan Tabel 3 maka diperoleh hasil yang berbeda. Nilai-nilai koefisien yang diperoleh berbeda. Hal ini sesuai dengan yang disebutkan Myers dalam poin pertama, yang juga akan mempengaruhi jumlah kuadrat ekstranya. Standard error untuk masing-masing koefisien dugaan juga menjadi lebih besar jika variabel bebas yang terlibat dikurangi. Misalnya untuk standard error usia. Di Tabel 2 nilainya adalah 0.005 sedangkan di Tabel 3 nilainya adalah 0.02. Hal ini mendukung Myers dalam poin ketiga. Untuk Myers poin ketiga tidak ditemukan sebab semua variabel bebas yang terlibat dalam pemodelan signifikan. Tetapi yang perlu diperhatikan adalah tanda negatif dari variabel tinggi badan. Bisa terjadi tanda yang seharusnya adalah positif. Untuk menentukan adanya multikolinear dapat dilakukan dengan mengecek nilai korelasi antar variabel bebas. JIka dilakukan pengecekan nilai korelasi maka dapat dikatakan bahwa ada korelasi antar variabel tersebut. Hal ini ditunjukkan dengan nilai korelasi sebesar 0.9 antara variabel usia dan tinggi badan.
SIMPULAN Berdasarkan penelitian yang telah dilakukan, ditarik beberapa simpulan. Pertama, hampir 50% anak di kelurahan Karangkitri, Bekasi Timur, Jawa Barat, termasuk anak dengan status gizi tidak baik. Kedua, berdasarkan analisis data awal diketahui ada tiga faktor yang mempengaruhi status gizi anak, yaitu usia, status ekonomi keluarga, dan tinggi badan anak. Ketiga, adanya indikasi terjadinya multikolinear dalam model regresi logistik ordinal untuk status gizi anak.
DAFTAR PUSTAKA Agresti, A. (2007). An Introduction to Categorical Data Analysis. New Jersey: John Wiley & Sons. Ashok, K. N., Mitra, A., & Mitra, S. (2005). Multiple outlier detection in multivariate data using selforganizing maps title. Computational Statistics, 20(2), 245 – 264. DOI: http://dx.doi.org/10.1007/BF02789702. Das, S and Rahman, R. M. (2011). Nutrition Journal, 1-12. Francisco-Fernández, Mario & Juan, M. V. (2009). Two tests for heteroscedasticity in nonparametric regression. Computational Statistics, 24(1), 145 – 163. DOI: http://dx.doi.org/10.1007/s00180-008-0110-3. Kleinbaum, D. G and Klein, M. (2010). Logistic Regression. London: Springer. Norris, C. M., Ghali, W. A., Saunders, D., Brant, R., Galbraith, D., Faris, P., and Knudtson, M. L. (2006). Ordinal regression model and the linear regression model were superior to the logistic regression models. Journal of Clinical Epidemiology, 59, 448 – 456. Ohyver, M. (2011). Metode ridge untuk mengatasi kasus multikolinear. Comtech, 2(1), 451 – 457. Skripsi tidak diterbitkan. Universitas Bina Nusantara, Jakarta. Yongharto, K. O., Suroso, J., and Ohyver, M. (2012). Opportunity Analysis of Nutritional Status for Children using Multinomial Logistic Regression Based on Computer.
Identifikasi Multikolinear pada …... (Margaretha Ohyver)
111