BAB I PENDAHULUAN
1.1. Latar Belakang Masalah Regresi logistik digunakan untuk memprediksi variabel respon yang biner dengan satu set variabel penjelas (prediktor). Estimasi parameter dapat menjadi tidak akurat, serta interpretasi odd ratio bisa salah jika terdapat multikolinearitas di antara prediktor. Untuk mengatasi masalah estimasi parameter dengan multikolinearitas, dilakukan pengurangan dimensi prediktor dengan menggunakan komponen utama optimal dari prediktor tersebut. Ada banyak studi kedokteran atau epidemiologi yang memprediksi variabel respon biner atau menghitung probabilitas terjadinya suatu kejadian (sukses) dengan sekumpulan variabel penjelas yang berkaitan dengan itu. Untuk tujuan memprediksi, misalnya kemungkinan menderita serangan jantung dilihat dari tingkatan faktor resiko seperti kolesterol dan tekanan darah. Regresi logistik mampu memenuhi tujuan tersebut dengan baik dan banyak digunakan untuk menyelesaikan kasus-kasus seperti ini. Dalam berbagai aplikasi regresi logistik tersebut, adanya multikolinearitas di antara faktor resiko atau variabel independen dianggap penting. Banyak penulis menyatakan bahwa model logistik menjadi tidak akurat jika terdapat ketergantungan yang kuat antara prediktor. Dalam hal ini estimasi parameter model yang diberikan oleh paket statistik menjadi sangat tidak akurat. Konsekuensinya, interpretasi hubungan antara variabel respon dan setiap variabel prediktor dalam odd ratio menjadi keliru meskipun pada uji goodness-of-fit menunjukkan estimasi probabilitas sukses cukup baik. Schaefer (1986) menyebutkan bahwa permasalahan multikolinearitas pada regresi logistik sama dengan masalah multikolinearitas pada regresi berganda. Multikolinearitas menyebabkan matriks variabel independen mendekati singular sehingga menghasilkan estimasi ML yang tidak tepat, dibuktikan dengan besarnya standard error. Schaefer (1986) memberikan alternatif estimator, salah satunya estimator komponen utama.
1
2
Pada regresi logistik dengan multikolinearitas, selain menggunakan komponen utama peneliti mengatasinya dengan menghapus prediktor yang multikolinear atau dengan menggunakan estimasi ridge. Namun kedua metode tersebut mempunyai kelemahan. Dengan menghapus prediktor yang multikolinear seringkali merugikan karena dapat menghilangkan informasi yang dibutuhkan. Adapun kelemahan estimasi ridge yaitu perlu ditentukan nilai k agar didapat variansi yang kecil dan untuk menentukan nilai k diperlukan berbagai algoritma yang panjang di antaranya adalah melakukan standarisasi data terhadap mean dan variansi serta perlu dilakukan pengembalian (unstandardize) data terhadap kedua ukuran tersebut serta banyaknya metode serta tahapan untuk memperoleh k optimal. Seperti metode regresi yang lain, pada regresi logistik biasa terdapat banyak prediktor sehingga diperlukan reduksi atau pengurangan dimensi. Untuk mengatasi masalah tersebut digunakan prediktor berupa komponen utama sebagai prediktor model logistik. Dengan komponen utama, jumlah prediktor lebih sedikit dan lebih mudah diinterpretasi hasil analisisnya. Prediktor yang awalnya saling berkorelasi menjadi variabel baru yang saling bebas. Aguilera dkk. (2006) juga menawarkan solusi multikolinearitas pada regresi logistik dengan menggunakan Principal Component Logistic Regression (PCLR) sebagai perluasan model Principal Component Regression (PCR) pada kasus linear. 1.2. Maksud dan Tujuan 1.
Mengetahui
pengertian,
akibat,
dan
cara
mendeteksi
adanya
multikolinearitas pada regresi logistik. 2.
Melakukan penanganan kasus multikolinearitas pada regresi logistik biner dengan Principal Component Logistic Regression (PCLR).
3.
Membandingkan model yang dihasilkan dengan menghapus variabel yang multikolinear dan model Principal Component Logistic Regression (PCLR).
3
1.3. Pembatasan Masalah Batasan masalah sangat diperlukan untuk menjamin keabsahan dalam kesimpulan yang diperoleh. Agar tidak terjadi penyimpangan dari tujuan semula dan pemecahan masalah lebih terkonsentrasi, maka pembahasan akan difokuskan pada pencarian estimasi parameter untuk regresi logistik biner dengan prediktor kontinu dalam kasus multikolinearitas menggunakan Principal Component Logistic Regression (PCLR).
1.4. Metode Penulisan Metode yang dipakai dalam penulisan laporan tugas akhir ini, lebih kepada studi literatur. Baik diperoleh dari sumber-sumber resmi, seperti perpustakaan, jurnal, maupun diperoleh melalui situs-situs pendukung yang tersedia di internet.
1.5. Tinjauan Pustaka Schaefer (1986) dalam jurnalnya “Alternative Estimators in Logistic Regression when the Data are Collinear” menyatakan bahwa dalam banyak penerapan
regresi
logistik
terdapat
situasi
dimana
variabel-variabel
independennya mengalami kolinearitas. Hal tersebut berdampak serius terhadap estimator conditional maximum likelihood. Disebutkan variansi dari estimator tersebut meningkat drastis dan begitu pula variansi dari estimator kuadrat terkecil pada regresi linear ganda. Schaefer memberikan beberapa estimator alternatif dengan menggunakan kesamaan antara regresi linear ganda dan regresi logistik ganda, salah satunya adalah estimator komponen utama. Isnadia (2012) dalam skripsinya yang berjudul “Penduga Penalti Ganda Likelihood dalam Model Regresi Logistik” juga mencari solusi terhadap multikolinearitas pada regresi logistik. Pada skripsi tersebut dijelaskan estimasi regresi logistik ganda dengan Newton-Raphson, dijelaskan pula multikolinearitas, pengaruhnya terhadap regresi logistik, serta cara pemeriksaannya. Aguilera dkk. (2006) dalam jurnalnya “Using Principal Components for Estimating Logistic Regression with High-Dimensional Multicollinear Data” juga
4
menjelaskan estimasi komponen utama pada regresi logistik secara lebih lengkap. Pada jurnal ini dijelaskan cara mendapatkan komponen utama dengan matriks kovarian, formulasi model, hingga diperoleh nilai estimator komponen utama tersebut. Istikomah (2009) dalam skripsinya “Estimasi Bias Principal Component Regression untuk Penanganan Kasus Multikolinearitas” menjelaskan estimasi menggunakan
komponen
utama
pada
regresi
linear
yang
mengalami
multikolinearitas serta berbagai cara menentukan jumlah komponen utama yang optimum. Skripsi ini sangat mendukung perhitungan yang ada karena menggunakan matriks kovarian juga untuk mendapatkan komponen utamanya seperti jurnal sebelumnya.
1.6. Sistematika Penulisan Tugas akhir ini akan disusun dengan sistematika sebagai berikut: BAB I
PENDAHULUAN Bab ini berisi latar belakang masalah, maksud dan tujuan, pembatasan masalah, metode penulisan, tinjauan pustaka, dan sistematika penulisan.
BAB II
LANDASAN TEORI Bab ini meliputi matriks, nilai eigen dan vektor eigen, varian kovarian, korelasi, keluarga eksponensial, distribusi bernoulli, distribusi binomial, metode Newton-Raphson, dan regresi logistik biner.
BAB III PRINCIPAL COMPONENT LOGISTIC REGRESSION (PCLR) UNTUK
MULTIKOLINEARITAS
DALAM
REGRESI
LOGISTIK BINER Bab ini membahas tentang metode centering, multikolinearitas, principal component analysis, formulasi model PCLR, pemilihan jumlah komponen utama optimum, uncentering data, dan algoritma Principal Component Logistic Regression (PCLR).
5
BAB IV STUDI KASUS Bab ini membahas tentang deskripsi data, uji asumsi regresi logistik ganda biner, analisis regresi logistik, penanganan multikolinearitas dengan PCLR, dan perbandingan regresi logistik dengan menghapus variabel yang multikolinear dan PCLR. BAB V
KESIMPULAN DAN SARAN Bab ini berisi kesimpulan yang diperoleh dari pembahasan pada bab sebelumnya dan saran untuk pengembangan dalam penelitian selanjutnya.