BAB I PENDAHULUAN
1.1
Latar Belakang Masalah Statistika adalah salah satu cabang ilmu matematika yang memperhitungkan
probabilitas dari suatu data sampel dengan tujuan mendapatkan kesimpulan mendekati populasinya. Analisis statistika merupakan penelitian terhadap suatu peristiwa yang berkaitan dengan cara-cara pengumpulan data, pengolahan, penyelidikan, dan penarikan kesimpulan berdasarkan data-data yang sudah dikumpulkan. Dalam buku “Statistical Theory in Research”, Anderson dan Bancroft (1952) menyatakan bahwa statistika adalah ilmu dan seni pengembangan dan penerapan metode yang paling efektif sehingga kemungkinan kesalahan dalam kesimpulan dan estimasi dapat diperkirakan dengan menggunakan penalaran induktif berdasarkan matematika probabilitas. Berbeda dengan statistika, pengertian statistik adalah sekumpulan data yang sudah menginterpretasikan suatu permasalahan. Pada saat pengumpulan data, realitasnya peneliti jarang sekali menggunakan data populasi. Hal ini biasanya dikarenakan berbagai faktor, diantaranya yaitu waktu, biaya, dan Sumber Daya Manusia (SDM). Padahal telah diketahui bahwa ciri-ciri data yang baik adalah objektif, representatif, memiliki kesalahan baku yang kecil, tepat waktu, dan relevan. Adapun maksud dari ciri data yang representatif adalah data sampel yang diambil tidak jauh dari populasi sehingga dari data sampel dapat menjelaskan populasinya. Kemudian terdapat permasalahan jika data sampel yang digunakan jauh lebih kecil daripada populasinya sehingga kurang merepresentatif hasil kesimpulan nantinya. Efron (1993) memperkenalkan metode Bootstrap dengan tujuan memperoleh estimasi yang sebaik-baiknya berdasarkan data minimal dengan bantuan komputer. Metode Bootstrap adalah metode berbasis resampling data sampel dengan syarat pengembalian pada datanya dalam menyelesaikan statistik ukuran suatu sampel dengan harapan sampel tersebut mewakili data populasi sebenarnya. Ukuran
1
2
resampling Bootstrap lebih baik diambil secara ribuan kali agar dapat mewakili data populasinya. Bootstrap memungkinkan peneliti untuk melakukan inferensi statistik tanpa membuat asumsi distribusi yang kuat. Sebagai pengganti, Bootstrap menggunakan distribusi empiris untuk mengestimasi distribusi sampling. Jadi, jika penyelesaian analitik tidak mungkin dilakukan dimana asumsi distribusi tidak terpenuhi, maka dengan menggunakan Bootstrap masih dapat dilakukan suatu inferensi. Jackknife adalah metode resampling lainnya yang dikembangkan untuk Bootstrap. Tujuan utama Jackknife serupa dengan Bootstrap, yaitu untuk memperoleh estimasi yang sebaik-baiknya berdasarkan data yang minimal dengan bantuan komputer. Salah satu prinsip kerja Jackknife menggunakan komputer dalam membangkitkan data dari
sampel asli yang berukuran kecil untuk
mendapatkan sampel tiruan. Sedangkan Bootstrap, salah satu prinsip kerjanya menggunakan komputer dalam membangkitkan kerandoman untuk mendapatkan sampel tiruan dari data asli yang berukuran sama. Data hasil analisis Bootstrap dapat digunakan untuk menggantikan data real sehingga problematika data dapat diselesaikan. Berbeda halnya dengan Jackknife yang mendapatkan sampel tiruannya tanpa cara pengembalian. Bootstrap menuntut peneliti untuk mendapatkan sampel tiruannya dengan pengembalian. Pada umumnya keuntungan dari metode Bootstrap adalah menghasilkan panjang interval yang lebih pendek daripada metode tradisional lainnya, seperti metode Jackknife dan metode Bayes (Sahinler dan Topuz, 2007). Analisis regresi merupakan analisis statistik yang digunakan untuk memodelkan hubungan antara variabel dependen dengan variabel independen. Analisis ini seringkali dipraktekkan dalam permasalahan di berbagai bidang disiplin ilmu karena termasuk kedalam metode statistik yang sederhana. Dalam analisis regresi, kejadian ketika variabel dependen merupakan variabel dikotomi disebut analisis regresi logistik. Variabel dikotomi adalah variabel yang hanya terdiri dari 2 nilai, yaitu nilai yang mewakili kemunculan atau nilai yang mewakili tidak adanya suatu kejadian (dilambangkan dengan nilai 0 atau 1). Sebagaimana dalam regresi linier, model regresi logistik yang melibatkan lebih dari satu
3
variabel independen (prediktor) disebut regresi logistik ganda. Secara garis besar, langkah-langkah pemodelan regresi logistik tidaklah berbeda jauh dengan kasus regresi linier. Penelitian kali ini akan mengangkat permasalahan data regresi logistik yang dapat diatasi oleh metode Bootstrap. Dalam konteks regresi linier ataupun nonlinier, resampling Bootstrap memiliki 3 jenis metode, yaitu metode residual, metode korelasi, dan metode eksternal. Ketiga jenis metode Bootstrap tersebut memiliki karakteristik masingmasing (Shao dan Tu, 1995). Metode residual adalah metode Bootstrap berdasarkan residual yang disebut resample fixed-x. Metode korelasi adalah metode Bootstrap berpasangan yang disebut resample random-x. Metode eksternal adalah metode Bootstrap yang digunakan apabila data mengandung heteroskedastisitas (Wu, 1986). Pembahasan dalam skripsi ini adalah mengenai peranan Bootstrap dalam analisis regresi logistik ganda. Penulis menyoroti metode Bootstrap yang memungkinkan untuk melakukan inferensi statistik dengan ukuran sampel yang jauh dari populasi.
1.2
Pembatasan Masalah Pembahasan materi metode Bootstrap memiliki cakupan yang luas. Oleh
karena itu, dilakukan penyempitan dalam penyelesaian masalahnya dan menjaga agar tidak terjadi penyimpangan yang relatif jauh dengan tujuan awal skripsi ini yaitu membahas permasalahan sampel yang kecil dalam pemodelan regresi logistik ganda menggunakan metode residual Bootstrap. Dalam karya tulis ini, peneliti hanya mengamati data dengan variabel dependen yang bersifat dikotomi dan variabel independen yang bersifat kontinu. Statistik yang akan digunakan sebagai parameter tingkat akurasi dari penduga parameter regresi logistik adalah standar error dan interval konfidensi.
1.3
Tujuan Penulisan Berdasarkan latar belakang permasalahan yang sudah dipaparkan diatas,
beberapa tujuan dari penelitian ini, yaitu:
4
1.
mengetahui kinerja metode Bootstrap dalam mengestimasi parameter model regresi logistik,
2.
mengetahui hasil estimasi parameter model regresi logistik dengan menggunakan metode Bootstrap dalam kasus jumlah data yang kecil,
3.
mengetahui tingkat akurasi hasil estimasi parameter model regresi logistik yang didapat menggunakan standar error dan interval konfidensi metode Bootstrap dalam kasus jumlah data yang kecil.
1.4
Tinjauan Pustaka Teori umum yang dikemukakan oleh Efron dan Tibshirani (1993)
mendeskripsikan metode Bootstrap bekerja menduga ketelitian statistika. Efron memperkenalkan bahwa Bootstrap adalah prosedur resampling untuk menduga distribusi probabilitas suatu peristiwa. Bootstrap adalah metode komputasi untuk inferensi statistik yang berdasarkan resampling. Metode ini merupakan pengembangan metode Jackknife yang dikembangkan oleh Miller (1974), dan penerapannya jauh lebih luas daripada metode Jackknife. Penelitian tentang penggunaan metode Bootstrap pun pernah dilakukan pada kasus pendugaan area kecil oleh Rao (2007). Dalam penelitian tersebut, Rao menjelaskan mengenai estimasi standar error untuk metode Jackknife dan Bootstrap dalam kasus area kecil. Sebelumnya, Efron dan Tibshirani telah menerangkan keakuratan estimasi titik dan interval yang menggunakan sampel Bootstrap. Hal ini dikarenakan estimasi Bootstrap lebih mendekati populasinya dibandingkan dengan pengambilan sampel lainnya. Keakuratan dari sampel Bootstrap untuk estimasi titik dan intervalnya diketahui dengan menggunakan standar error. Masih dalam tahun 2007, sebuah penelitian dilakukan oleh Sahinler dan Topuz yang membahas mengenai algoritma resampling Bootstrap dan Jackknife untuk keperluan estimasi parameter regresi. Jurnal tersebut mengaplikasikan Bootstrap dengan metode resampling residual untuk mengestimasi parameter regresi. Berdasarkan histogram dari estimator, distribusi estimator dengan pendekatan Bootstrap maupun Jackknife nantinya akan mendekati distribusi
5
normal. Namun, untuk perhitungan interval konfidensi persentil Bootstrap memiliki panjang interval yang lebih pendek dibandingkan menggunakan pendekatan distribusi normal. Pola Bootstrap untuk model nonlinier telah dibahas oleh Efron serta Shao dan Tu (1995). Pada model regresi linier ataupun nonlinier, generalisasi Bootstrap dapat digunakan dalam 3 metode yaitu yaitu metode residual, metode korelasi, dan metode eksternal. Ketiga metode tersebut mempunyai karakteristik masingmasing. Metode residual Bootstrap merupakan metode yang meminimalkan nilai kesalahan baku. Penelitian selanjutnya menjelaskan cara-cara Bootstrap melakukan resampling dalam model regresi logistik ganda dengan menggunakan R (Hossain, 2014). Sebelumnya penelitian yang dilakukan oleh Fitrianingrum (2013) membahas pengaplikasian analisis regresi logistik biasa dan regresi logistik dengan menggunakan metode Jackknife dalam bahasa R. Dalam penelitiannya, dilakukan pembandingan nilai standar error antara kedua regresi logistik tersebut dari data yang sudah diestimasi parameternya. Sebelumnya telah dibahas skripsi mengenai estimasi parameter regresi linier dengan menggunakan model residual Bootstrap dimana dijelaskan bahwa metode resampling Bootstrap yang melihat nilai residualnya sebagai acuan resampling dengan pengembalian untuk mengestimasi parameter dalam regresi linier (Syofyan, 2007). Untuk membedakan penelitian berikutnya, penulis membuat perbedaan dalam membahas bagaimana penerapan metode residual Bootstrap untuk analisis regresi logistik ganda.
1.5
Metode Penulisan Metode yang digunakan dalam penulisan skripsi ini adalah studi literatur,
buku-buku di perpustakaan dan referensi dari situs-situs internet penunjang lainnya. Penyelesaian studi kasus ini dibantu dengan menggunakan software Microsoft Excel 2010 dan R versi 3.2.0.
1.6
Sistematika Penulisan Adapun sistem penulisan dalam skripsi ini adalah sebagai berikut:
6
BAB I
PENDAHULUAN Bab ini berisi latar belakang dan permasalahan, pembatasan masalah, tujuan dan manfaat penulisan, tinjauan pustaka, metode penulisan, dan sistematika penulisan yang memberikan arah terhadap penulisan skripsi ini.
BAB II
DASAR TEORI Bab ini membahas tentang dasar teori yang mendukung pembahasan metode residual Bootstrap dalam model regresi logistik ganda dan distribusi-distribusi probabilitasnya.
BAB III
ESTIMASI
PARAMETER
MODEL
REGRESI
LOGISTIK
MENGGUNAKAN METODE RESIDUAL BOOTSTRAP Bab ini membahas tentang estimasi parameter regresi logistik ganda menggunakan
Maximum
Likelihood
Estimation
(MLE)
yang
kemudian diterapkan pada metode residual Bootstrap. BAB IV
STUDI KASUS Bab ini membahas aplikasi dalam contoh kasus permasalahan data kecil regresi logistik ganda dengan metode residual Bootstrap.
BAB V
PENUTUP Bab ini berisi mengenai kesimpulan-kesimpulan dari pembahasan pemecahan masalah dan saran terhadap kekurangan atau kelebihan dari hasil penelitian yang telah dilakukan.