BAB 1 PENDAHULUAN
1.1.
Latar Belakang Masalah Dalam masyarakat modern seperti sekarang ini, metode statistika telah banyak diterapkan pada berbagai bidang sebagai dasar bagi pengambilan keputusan / kebijakan. Salah satu metode statistika yang telah diterapkan secara luas di bidang administrasi bisnis, ekonomi, kesehatan, ilmu biologi dan bidang-bidang lain yang berhubungan dengan kehidupan secara nyata adalah model regresi linier. Hal ini disebabkan karena para ilmuwan, ekonom, psikolog, dan sosiolog selalu berkepentingan dengan masalah peramalan. Peramalan digunakan untuk memperkirakan / memperhitungkan besarnya efek kuantitatif dari perubahan suatu kejadian terhadap kejadian lainnya. Persamaan matematik yang memungkinkan kita meramalkan perubahan-perubahan suatu peubah tak bebas dari nilai satu atau lebih peubah bebas disebut persamaan regresi. Di dalam ilmu statistika terdapat beberapa macam persamaan regresi di antaranya adalah regresi linier sederhana, regresi linier berganda dan regresi non linier. Regresi linier sederhana adalah regresi yang terdiri dari satu peubah tak bebas dan satu peubah bebas. Regresi linier berganda adalah regresi yang terdiri dari satu peubah tak bebas dan beberapa peubah bebas (lebih dari satu). Regresi
1
non linier adalah regresi yang mempunyai kondisi di mana hubungan antara peubah tak bebas dan peubah bebas tidak membentuk suatu pola garis lurus. Di dalam regresi linier berganda dimungkinkan terjadinya beberapa masalah regresi seperti otokorelasi, heteroskedastisitas, dan multikolinieritas. Otokorelasi terjadi apabila kesalahan observasi berkorelasi antara satu dengan yang lainnya. Heterokedastisitas terjadi apabila elemen diagonal utama pada matriks ragam-peragam (varians-covarians)
tidak sama dengan satu. Kedua
masalah tersebut dapat diatasi dengan mentransformasi data. Sedangkan multikolinieritas terjadi apabila peubah-peubah bebas berkorelasi antara satu dengan yang lainnya. Hal ini sering terjadi pada data berkala. Multikolinieritas dapat mengakibatkan estimasi koefisien regresi menjadi tidak stabil.. Untuk mencari penduga yang baik dari parameter regresi berganda biasanya menggunakan metode kuadrat terkecil (ordinary least squares). Tetapi untuk mengatasi situasi multikolinieritas, metode kuadrat terkecil bukan merupakan solusi yang terbaik karena etimasi koefisien regresi yang dihasilkan tidak stabil dan variansi koefisien regresi sangat besar sehingga diperlukan suatu metode penaksiran alternatif yang memberi hasil penaksiran lebih baik. Salah satu solusi terhadap masalah multikolinieritas adalah prosedur ridge regression (Hoerl and Kennard, 1970a,b; Marquardt and Snee, 1975; Chatterjee et al..2000). Dengan menggunakan prosedur ridge regression maka estimasi koefisien regresi yang dihasilkan lebih stabil dan lebih tepat.
2
Permasalahan yang akan dibahas di dalam penulisan ini adalah bagaimana menentukan parameter ridge regression k yang optimum untuk mengestimasi parameter regresi dalam regresi berganda dengan multikolinieritas. Pada umumnya metode yang digunakan untuk menentukan parameter k bias adalah dengan menggunakan ridge trace. Ridge trace adalah suatu pola yang menggambarkan nilai koefisien estimasi ridge regression secara simultan untuk nilai parameter k yang berbeda, biasanya bernilai antara 0 dan 1. Penentuan nilai parameter k tersebut dengan cara memilih nilai parameter k terkecil di mana koefisien regresi mulai menampakkan keadaan yang stabil pada ridge trace. Maka penentuan parameter k bersifat subjektif sehingga akan sangatlah mungkin terjadinya perbedaan nilai parameter k pada setiap individu. Oleh karena itu dibutuhkan suatu metode komputer intensif dalam menentukan parameter k secara optimum dan tepat. Permasalahan inilah yang mendasari penulis mengangkat topik skripsi “Analisis Penentuan Nilai Parameter Ridge Regression k yang Optimum dengan R Language”.
1.2.
Perumusan Masalah Permasalahan pokok yang mendasari penulisan skripsi ini dapat digambarkan dengan pertanyaan sebagai berikut : 1.
Apakah terdapat multikolinieritas pada data yang ada ?
2.
Berapakah nilai parameter k optimum yang diperoleh berdasarkan kriteria Mean Squared Error ?
3
3.
Berapakah estimasi koefisien Ridge Regression terbaik untuk data yang ada?
4.
Apakah estimasi koefisien regresi yang dihasilkan dengan prosedur Ridge Regression lebih baik dibandingkan dengan estimasi koefisien regresi yang dihasilkan dengan metode kuadrat terkecil ?
1.3.
Ruang Lingkup Penelitian Di dalam analisis tersebut dilakukan pembatasan-pembatasan sebagai berikut : 1.
Penulisan Analisis Penentuan Nilai Parameter Ridge Regression k yang Optimum dengan R Language ini melakukan analisis terhadap data yang mempunyai masalah multikolinieritas pada model regresi linier berganda.
2.
Penulis tidak membangkitkan data. Data yang digunakan adalah data penelitian sekunder.
1.4.
Tujuan Penelitian
1.4.1. Tujuan Umum Penelitian Tujuan umum dari penelitian ini adalah untuk memperoleh nilai parameter ridge regression k yang optimum dengan menggunakan suatu algoritma yang berdasarkan metode Newton-Raphson yang mengangkat kriteria Mean Squared Estimation Error dan Mean Squared Prediction Error agar menghasilkan estimasi koefisien regresi terbaik dari suatu data regresi berganda yang mempunyai masalah multikolinieritas.
4
1.4.2. Tujuan Khusus Penelitian Adapun tujuan khusus dari penelitian ini adalah sebagai berikut : 1.
Memperlihatkan adanya hubungan multikolinieritas di antara peubah bebas.
2.
Membandingkan metode ordinary least squares dengan metode ridge regression di dalam mengestimasi koefisien persamaan regresi pada data regresi berganda dengan multikolinieritas di antara peubah bebasnya.
1.5.
Manfaat Penelitian 1.
Bagi pembaca : •
Dapat menambah pengetahuan mengenai masalah multikolinieritas dan bagaimana cara mengatasinya.
• 2.
Dapat diterapkan pada permasalahan yang sama di dalam dunia nyata.
Bagi peneliti lain : •
Dapat digunakan sebagai bahan acuan dalam pengembangan penelitian berikutnya mengenai ridge regression.
3.
Bagi penulis : •
Memperdalam ilmu Statistika khususnya di bidang ridge regression.
•
Memperdalam ilmu pemrograman dengan R Language.
5
1.6.
Definisi Operasional Di dalam penulisan skripsi ini, terdapat beberapa istilah yang tidak umum digunakan dalam kehidupan sehari-hari, oleh karena itu perlu adanya definisi operasional untuk mempermudah pemahaman dan mengurangi kesalahan pemikiran. Istilah-istilah tersebut adalah 1.
Multikolinieritas Adalah suatu keadaan apabila peubah bebas X dari suatu model regresi berganda saling berkorelasi atau mempunyai ketergantungan linier.
2.
Ridge Regression Adalah suatu prosedur regresi linier yang ditujukan untuk mengatasi situasi multikolinieritas di mana kolom matriks X tidak bebas linier dan menyebabkan matriks X’X hampir singular.
3.
Parameter k Adalah suatu konstan bias yang ditambahkan ke dalam persamaan normal metode kuadrat terkecil untuk mendapatkan penduga ridge regression ( k ≥0 ).
4.
Mean Squared Estimation Error Adalah nilai harapan dari kuadrat deviasi penduga bias bR dengan parameter sebenarnya β.
6
1.7.
Sistematika Penulisan Secara garis besar penulisan skripsi ini terdiri dari lima bab yaitu : BAB 1 : PENDAHULUAN Bab ini terdiri dari latar belakang masalah, perumusan masalah, ruang lingkup masalah, tujuan dan manfaat penulisan, definisi operasional dan sistematika penulisan. BAB 2 : LANDASAN TEORI Bab ini meguraikan definisi dan teori-teori umum yang relevan dan menjadi dasar dari skripsi ini. BAB 3 : METODOLOGI ANALISIS Bab ini berisi tentang analisis permasalahan, tahapan analisis, teknik pengadaan data dan teknik analisis data. BAB 4 : HASIL DAN PEMBAHASAN Bab ini berisi tentang hasil dan pembahasan mengenai analisis yang dilakukan. BAB 5 : SIMPULAN DAN SARAN Dalam bab terakhir ini memuat garis besar bab 1 sampai bab 4 yang merupakan kesimpulan dari analisis serta saran-saran yang berkenaan dengan hasil analisis.
7