BAB I PENDAH ULUAN
1.1.
Latar Belakang Analisis regresi merupakan salah satu analisis statistika yang digunakan untuk
menentukan hubungan sebab-akibat antara satu variabel dengan variabel-variabel lainnya, sehingga salah satu variabel bisa diramalkan dari variabel lainnya.Pada analisis regresi terdiri dua jenis variabel, yaitu variabel bebas (variabel independen) dan variabel tak bebas (variabel dependen).Variabel b ebas (variabel independen) adalah variabel yang mempengaruhi atau yang menjadi sebab perubahan atau timbulnya variabel tak bebas, sedangkan variabel tak bebas (variabel dependen) adalah variabel yang dipengaruhi atau yang menjadi akibat adanya variabel bebas.Analisis regresi adalah salah satu analisis yang paling popular dan luas pemakaiannya.Hampir semua bidang ilmu yang memerlukan analisis sebab -akibat boleh dipastikan menggunakan analisis ini. Analisis regresi binari adalah suatu analisis regresi di mana variabel responnya berskala biner/dikotomus dengan variabel prediktor berskala kontinu, dikotomus, ataupun polikotomus.Variabel dikotomus adalah variabel yang memiliki 2 kemungkinan (sukses atau gagal).Biasanya analisis regresi binari dimodelkan dengan menggunakan analisis regresi logistik.
Dalam regresi logistik ini diharuskan
memenuhi asumsi-asumsi yang ada seperti halnya dalam regresi OLS ( Ordinary Least Square) sehingga nantinya estimasi parameter yang dihasilkan akan memenuhi kriteria Best, Linear, Unbiased Estim ator (BLUE). Namun regresi logistik ini sangatlah peka terhadap asumsi-asumsi yang sudah ada, sehingga kalau ada salah satu asumsi yang tidak terpenuhi, maka regresi ini kurang cocok dig unakan karena dapat menghasilkan kesimpulan yang bias. Salah satu asumsi yang seringkali tidak terpenuhi adalah adanya data dalam variabel independen yang mengandung pencilan
1
2
(outlier). Data pencilan ini nantinya akan mengakibatkan heteroskedastisitas pada data, di mana variansi galat akan berubah-ubah (tidak konstan). Jika data mengandung pencilan (outlier), maka data tidak lagi berbentuk simetris sehingga nilai mean kurang tepat digunakan karena tidak dapat mewakili keseluruhan dari data. Terkadang untuk mengatasi hal tersebut, peneliti akan melakukan transformasi terhadap data dengan maksud agar asumsi terpenuhi. Namun seringkali asumsi tersebut masih belum terpenuhi meskipun telah dilakukan transformasi yang pada akhirnya mengakibatkan estimasi parameter yang dihasilkan tetap bias. Dengan adanya fenomena tersebut, maka berkembanglah metode regresi binari kuantil yang tidak membutuhkan asumsi galat dalam model dan estimatornya bersifat tegar (robust) terhadap pencilan ( outlier) pada variabel independen.M etode regresi binari kuantil ini merupakan perluasan dari metode regresi kuantil yang variabel responnya berskala dikotomus.Pendekatan regresi kuantil yaitu dengan memisahkan atau membagi data yang dicurigai ada perbedaan nilai taksiran pada kuantil-kuantil tertentu. M etode yang digunakan untuk proses pemilihan variabel dan estimasi parameter regresi binari kuantil ini adalah Least Absolute Shrinkage Selection Operator (LASSO). Dengan menggunakan fungsi penalti LASSO ini nantinya dapat menghasilkan regresi yang robust dengan penduga parameter yang bagus dan lebih mengecilkan galat dari model regresi logistik.Fungsi penalti LASSO ini juga berperan dalam mengidentifikasikan variabel prediktor mana saja yang penting untuk variabel respon. Selanjutnya dengan menggunakan analisis Bayesian akan didapatkan estimasi parameter yang dicari. Analisis Bayesian adalah suatu metode yang diperlukan untuk mengestimasi parameter dengan memanfaatkan informasi awal dan bentuk distribusi awal (prior) dari suatu populasi.Informa si ini kemudian digabungkan dengan informasi dari sampel yang digunakan dalam mengestimasi parameter populasi.Pada analisis Bayesian, peneliti harus menentukan distribusi prior dari parameter yang
3
ditaksir.Distribusi prior ini dapat berasal dari data penel itian sebelumnya atau berdasarkan intuisi seorang peneliti.
Dugaan penentuan distribusi parameter
sangatlah subyektif (Hogg dan Craig, 1978). Setelah informasi data digabungkan dengan informasi prior, maka didapatkan
distribusi posterior yang nantinya a kan
menjadi informasi untuk mencari parameter regresi dengan mudah. Secara analitik, memperoleh marginal posterior merupakan hal yang sulit. Dalam model yang rumit, mengintegralkan parameter dari distribusi posterior bersama atau menentukan kenormalan dari distribusi posterior secara umum adalah hal yang sangat sulit dan tak mungkin dilakukan. M etode Bayesian mengatasi permasalahan ini dengan menggunakan bantuan algoritma M CM C ( Markov Chain Monte Carlo) yaitu G ibbs sampling. Dengan bantuan algoritma ini dengan mudah mendapatkan distribusi posterior bahkan dalam kasus yang kompleks.
1.2.
Pembatasan Masalah M odel regresi binari kuantil bayesian terpenalti memiliki ruang lingkup yang
sangat luas untuk dibahas. Oleh karena itu dalam skripsi ini hanya akan dibaha s estimasi model regresi binari kuantil dengan LASSO sebagai fungsi penalti -nya menggunakan analisis bayesian melalui algoritma Gibbs sam pling, serta terbatas pada model regresi binari dengan melibatkan semua variabel independen yang sudah terbukti secara teoritis.
1.3.
Tujuan Penulisan Berdasarkan latar belakang dan batasan masalah di atas, maka tujuan
penulisan skripsi ini adalah sebagai berikut : a) M empelajari model regresi binari kuantil dengan penalti Lasso. b) M empelajari analisis Bayesian dan mengimplementasikannya melalui metode Markov
Chain
M onte
Carlo
dengan
algoritma
Gibbs
sam pling
mengestimasi parameter model regresi binari kuantil dengan penalti Lasso.
untuk
4
c) M engaplikasikan regresi binari kuantil Bayesian terpenalti untuk menganalisis faktor apa saja yang mempengaruhi kualitas air sungai yang melewati Kabupaten Bantul.
1.4.
Tinjauan Pustaka M odel regresi binari kuantil ini merupakan perluasan dari model regresi
kuantil di mana variabel responnnya bers kala biner.Regresi kuantil dikenalkan oleh Koenker dan Basset pada tahun 1978. Regresi ini berguna untuk menganalisis sejumlah data yang mengandung pencilan (outlier) dan heteroskedastisitas. Pada tahun 2001 Keming Yu dan Rana A. M oyeed mempopulerkan m etode bayesian pada regresi kuantil. M ereka memperkenalkan gagasan regresi kuantil menggunakan
fungsi
likelihood
yang
didasarkan
pada
Asymmetric
Laplace
Distribution. Penggunaan distribusi ini merupakan cara alami dan efektif untuk pemodelan regresi kuantil bayesian. Yu dan M oyeed juga memperkenalkan regresi kuantil bayesian menggunakan algoritma M CM C untuk inferensi posteriornya. Dalam metodenya mereka menggunakan algoritma Metropolis H asting untuk menganalisis kuantil bayesian. Selanjutnya
tahun 2009, Hiedo K ozumi dan Kobayashi
mengembangkan
regresi kuantil Bayesian menggunakan Asym metric Laplace Distribution dan mengemukakan metode M CM C dengan bantuan algoritma G ibbs sampling yang berdasarkan pada mixture representation dari Asymmetric Laplace D istribution. M ereka memaparkan bahwa dengan menggunakan kondisi tersebut, de nsitas dari posterior akan sangat mudah dikerjakan. Pada tahun 2010, Li et al. mengenalkan Bayesian Regularized Q uantile regression dengan menggunakan penalti LASSO, group LAS SO, dan net penalti. Alhamzawi et al. pada tahun 2011 juga mengenalkan Bayesian Adaptive Lasso Quantile Regresion. Dan tahun 2012 Alkenani et al. memperkenalkan Penalized
5
Flexibel Bayesian Quantile Regression dengan LASSO dan Adaptive LASSO dengan asumsi distribusi galat infinite mixture of G aussian Densities. Pada tahun 2012, Benoit dan Van den P oel mulai mengembangkan regresi kuantil
untuk
variabel
respon
yang
berskala
dikotomus/biner.M ereka
mengembangkan regresi tersebut dengan menggunakan pendekatan Bayesian mel alui algoritma Metropolis Hasting untuk mencari estimasi parameter regresi binari kuantil. Kemudian pada tahun 2013, Rahim A lhamzawi et al.menyempurnakan jurnal sebelumnya dengan mengembangkan regresi binari kuantil dengan tambahan penalti Lasso dengan menggunakan analisis Bayesian melalui algoritma Gibbs sampling. Pada tahun 2014, Afifka Fitri Nugrahwati dalam skripsinya membahas regresi kuantil terpenalti dengan menggunakan estimasi bayesian.Dalam skripsi tersebut menggunakan metode M CM C dengan algoritma Gibbs sampling.
1.5.
Metode Penulisan M etode yang digunakan dalam penulisan skripsi ini adalah studi literatur yang
didapat dari perpustakaan, buku-buku, jurnal-jurnal, dan situs-situs internet yang berhubungan dengan tema skripsi ini.Pengerjaan skripsi di tunjang oleh perangkat lunak (software) SPSS 19, M icrosoft Excel 2010, M initab 14, R 2.11.1, R 3.1.2 dengan package bayesQR untuk mencari nilai estimasi parameter regresi binari kuantil bayesian dengan penalti Lasso.
1.6.
Sistematika Penulisan
Skripsi ini disusun dengan sistematika penulisan sebagai berikut : BAB I
PENDAHU LUA N Bab ini membahas latar belakang penulisan skripsi, pembatasan masalah dalam skripsi, tujuan yang ingin dicapai dalam penulisan, tinjauan pustaka, metode penulisan yang dig unakan, dan sistematika penulisan yang memberikan arah dan tujuan dalam penulisan skripsi ini.
6
BAB II
LANDASA N TEORI Bab ini membahas tentang teori-teori yang menunjang pembahasan regresi binari kuantil bayesian dengan penalti Lasso.
BAB IIIANALISIS BAYESIAN UNTUK REGRESI BINARI KUAN TIL DEN GAN PENALTI LASSO Bab ini berisi pembahasan mengenai penggunakaan metode bayesian dalam
mengestimasi parameter model regresi binari kuantil terpenalti
dengan menggunakan algoritma Gibbs sam pling. BAB IV STUDI KASUS Bab ini berisi tentang deskripsi data, estimasi parameter menggunakan metode regresi binari kuantil Bayesian terpenalti dan estimasi parameter dengan menggunakan regresi logistic dan regresi probit.Data yang digunakan adalah data sekunder yang bersumbe r dari Badan Lingkungan Hidup Kabupaten Bantul. Data menunjukkan ada hubungan antara kualitas air sungai terhadap pH air, suhu air, salinitas, kadar fluorida, phospat, dan ammonia. BAB V
PENUTUP Bab ini membahas tentang kesimpulan dari materi yang telah dibahas dari skripsi ini.Serta saran atas kekurangan dari hasil pembahasan yang bisa diberikan sebagai bahan acuan untuk penelitian lanjutan.