1
Bab I PENDAHULUAN
1.1 Latar belakang Dewasa ini perkembangan komputer yang maju dapat dipergunakan manusia sebagai alat bantu untuk mempermudah dan mempercepat pekerjaannya. Fungsi komputer tersebut juga telah merambah dan medukung berbagai bidang pekerjaan manusia seperti aplikasi perbangkan, bisnis, kedokteran, hiburan, dan tidak terlepas dari bidang statistika yang juga dikarenakan perhitungan didalam ilmu statistika yang kompleks dan memakan waktu juga membutuhkan ketelitian yang tinggi Statistika merupakan sebuah ilmu yang secara ilmiah yang mempelajari segala sesuatu yang dipelajari dari pengalaman sedangkan definisi dari metode statistis itu sendiri menurut Ronald E.Walpole (1995, p1) adalah prosedur – prosedur yang digunakan dalam pengumpulan, penyajian, analisis, dan penafsiran data. Ilmu statistika itu sendiri ditemukan kira-kira pada tahun 1650. Dengan majunya zaman berpengaruh juga terhadap ilmu statistik ini yang ikut maju seperti ilmu-ilmu lain pada umumnya untuk menemukan metode baru untuk interpretasikan hasil dari data. Didalam ilmu statistika terdapat berbagai macam persamaan regresi yang salah satunya adalah regresi logistik. Regresi logistik diperkenalkan oleh Pierre Francois Verhulst yang adalah seorang Professor dari Belgian Military College untuk memodelkan populasi pada tahun 1800an yang merupakan salah satu bentuk regresi non linear dimana hubungan antara variabel bebas dan variabel terikatnya tidak berbentuk garis lurus. Regresi logistik mendapatkan namanya berasal dari fungsi cumulative density functionnya (cdf) yang berbentuk dengan fungsi logistik. Regresi logistik itu sendiri
2 digunakan sebagai metode untuk menganalisa keterkaitan dari variabel binary (0 dan 1) yang diuji dengan berbagai variabel independennya, yang juga dinamakan dengan variabel dikotomi karena hal tersebut. Pengunaan regresi logistik karena kegunaanya yang baik dan cocok untuk variabel dengan respons yang dikotomi. pemakaiannya
regersi
logistik
mempunyai
kekompleksan
dalam
Dalam
perhitungan
dibandingkan dengan regresi biasa, dikarenakan bentuknya yang non-linear dan responsnya yang dikotomi. Menurut Efron dan Tibshirani (1998, p.5), Bootstrap adalah sebuah ilmu statistika yang berbasis pada simulasi data untuk statistik infersia. Kata bootstrap sendiri berasal dari buku yang diciptakan oleh Rudolph Erich Raspe yakni “Adventures of Baron Munchaunsen” dimana didalamnya terdapat frase yang bertuliskan “pull oneself up by one`s bootstrap” yang menceritakan cerita dimana Baron jatuh ke dasar danau yang dalam dan yang hanya bisa dia lakukan adalah mengangkat dirinya dengan sepatu bootnya sendiri. Sehingga metode bootstrap itu sendiri berarti melakukan sample ulang dari data-data yang ada sampai dengan jumlah tertentu. Metode bootstrap itu sendiri diciptakan oleh Efron, professor statistika di Stanford pada tahun 1970. Tujuan utama dari metode bootstrap ini adalah mencoba dan belajar tentang parameter statistika dari sebuah distribusi. Bootstrap bisa melakukan penarikan sampel dari data secara acak pada berbagai macam hal, contohnya seperti pada mean, median dan standar error ketika distribusi yang sesungguhnya tidak diketahui dan salah satunya mempunyai sekumpulan observasi. Metode Bootstrap dapat berguna juga untuk mengestimasi dan menghitung pada keadaan dimana terjadi kekurangan data. Perlulah didalam penggunaan kedua metode, regresi logistik dan metode bootstrap untuk mengetahui keakuratannya untuk itu didalam penelitian ini, akan dibandingkan
3 regresi logistik biasa dengan regresi logistik yang datanya terlebih dahulu disampel secara acak dengan metode bootstrap tersebut. Pembandingan metode bootstrap dengan metode lain yang sesuai dapat dilakukan menggunakan regresi logistik.
1.2 Rumusan Masalah Rumusan permasalah yang utama pada yang mendasari penulisan yang saya buat ini adalah : 1. Tepatkah penggunaan metode bootstrap conditional distribution pada regresi logistik? 2. Seberapa besarkah deviance residual dari metode seperti bootstrap itu pada regresi logistik? 3. Bagaimanakah
perbedaan
deviance
residual
metode
bootstrap
yang
digabungkan dengan regresi logistik jika dibandingkan dengan regresi logistik biasa?
1.3 Ruang Lingkup Penelitian Mengingat luas dan kompleksnya elemen-elemen yang harus diperhatikan dalam maka dilakukan pembatasan-pembatasan terhadap ruang lingkup penelitian , yang antara lain adalah: 1. Sebagai contoh, pada penelitian ini menggunakan 3 dan 6 variabel X, dengan jumlah data yang dibangkitkan sebanyak 30, 60, 100, dan 500.
4 2. Regresi logistik yang digunakan adalah regresi berganda logistik yang mempunyai nilai variabel dependen berdistribusi binomial. 3. Metode bootstrap yang digunakan adalah Bootstrap Conditional Distribution untuk regresi logistik. 4. Menggunakan alat bantu komputasi R-Language. 5. Banyaknya replikasi metode bootstrap yang dilakukan adalah sebanyak 1000 kali.
1.4 Tujuan dan Manfaat Penelitian Tujuan Umum dari penelitian ini adalah untuk menghitung dan menganalisis deviance residual dari regresi logistik berganda dengan metode bootstrap yang akan dibandingkan dengan regresi logistik biasa sehingga diketahui keakuratannya. Tujuan Khusus dari penelitian ini adalah: 1.
Membandingkan deviance residual dari regresi logistik dan regresi logistik dengan bootstrap.
2.
Mengetahui
perbedaan estimasi parameter dari penelitian pada regresi
logistik dan regresi logistik dengan metode bootstrap. Manfaat dari perancangan ditujukan bagi beberapa pihak yang antara lain terdiri dari : 1.
Peneliti. Peneliti dapat mengetahui ketepatan metode bootstrap conditional distribution pada regresi logistik.
5 2.
Penulis. a.
Memperdalam ilmu di bidang statistik dan untuk menggunakan aplikasi statistik dalam kehidupan secara nyata.
b.
Memperdalam ilmu di bidang tehnik informatika dengan menggunakan bahasa pemrograman R-language.
1.5 Definisi Operasional Dalam skripsi ini digunakan beberapa istilah yang tidak umum digunakan dalam kehidupan sehari-hari, sehingga perlu dijabarkan untuk mempermudah pemahaman dan mengurangi kesalahan pemikiran. Berikut beberapa istilah tersebut : 1.
R-Language adalah software komputasi statistik dan grafis, yang merupakan suatu software yang open source yang dapat didownload dari situs www.Rproject.org.
2.
Bootstrap adalah suatu metode yang diperkenalkan oleh Bradley Efron pada tahun 1970, dimana metode tersebut digunakan untuk melakukan sampel ulang suatu data observasi.
3.
Bootstrap Conditional Distribution adalah metode bootstrap yang melakukan pengambilan secara acak dengan pengembalian terhadap nilai ekspetasi dari suatu varibel terhadap variabel lain.
4.
Multiple Logistic Regression adalah regresi logistik yang mempunyai satu buah variabel dependen (Y) yang berdistribusi binomial dan memiliki lebih dari satu variabel independen (X).
5.
Deviance residual adalah suatu persamaan untuk mengukur goodness-of-fit dari model regresi logistik.