BAB I PENDAHULUAN
1.1. Latar Belakang Masalah Missing data atau data hilang adalah informasi yang tidak tersedia dalam sebuah subyek atau kasus. Fenomena missing data banyak dijumpai dalam survei. Banyak hal yang menyebabkan terjadinya missing
data. Sehingga terkadang
beberapa peneliti mengabaikan bahkan menghapus observasi yang mengandung missing data. Permasalahan data hilang atau tidak lengkap (missing data) biasa ditemui di berbagai bidang. Beberapa hal yang dapat menyebabkan terjadinya missing data misalnya tidak terisinya kuesioner, responden menolak untuk memberikan jawaban, kesalahan dalam pengambilan data dan lain sebagainya. Hal ini menyebabkan hasil yang didapatkan menjadi tidak valid dan tujuan dari penelitian tidak tercapai. Teknik atau metode paling tradisional yang digunakan diantaranya adalah listwise deletion dan pairwise deletion. Listwise deletion merupakan metode untuk mengatasi data hilang dengan cara menghapus data yang hilang tersebut dari sampel. Kelebihan dari metode ini adalah dapat digunakan untuk setiap jenis analisis statistik dan tidak membutuhkan komputasi yang rumit. Namun kelemahannya adalah akan membuat kesimpulan menjadi tidak valid karena hanya sekedar menghapus data hilang yang ada. Kemudian ide dari pairwise deletion adalah membuang sepasang pengamatan yang mengandung data hilang. Selain itu Little dan Rubin (1987) juga memperkenalkan berbagai macam untuk mengatasi missing data, diantaranya adalah: complete case analysis yaitu membuang observasi yang terdapat missing data dan estimasi mengarah pada standard error yang lebih besar dikarenakan jumlah sampel yang berkurang. Metode yang lebih modern dibandingkan dengan kedua metode tradisional tersebut di atas adalah metode modern yang terdiri dari maksimum likelihood dan imputasi ganda. Kedua metode ini tidak hanya sekedar menghapus data yang hilang dari suatu sampel, namun mengganti data yang hilang tersebut dengan nilai
estimasi. Metode maksimum likelihood merupakan metode yang digunakan untuk mengestimasi nilai data yang hilang menggunakan algoritma ekspektasi maksimisasi. Sedangkan imputasi ganda merupakan metode yang digunakan untuk mengestimasi nilai data yang hilang menggunakan beberapa nilai yang mungkin yang mewakili dari distribusi kemungkinannya dan dilakukan sebanyak m kali. Imputasi multivariat dengan chained equations (MICE) adalah salah satu metode untuk menangani data hilang. Selain itu, pendekatan chained equation atau persamaan berantai sangat fleksibel dan dapat menangani berbagai jenis variabel seperti variabel kontinu ataupun variabel biner. Imputasi tunggal seperti imputasi mean merupakan salah satu estimasi dalam meganalisis data hilang, akan tetapi imputasi ini tidak mempertimbangkan ketidaktepatan dalam imputasi, sehingga sering kali menimbulkan kesimpulan yang kurang tepat. Sedangkan metode Maximum Likelihood hanya dapat digunakan untuk beberapa model saja seperti longitudinal atau structural equation models dan umumnya hanya dapat dijalankan degan software khusus seperti Amos dan Lisrel. Sedangkan pada MICE (Buuren et al. 1999), setiap variabel memiliki model yang diimputasi sendiri dan dapat digunakan untuk berbagai model data seperti data kontinu, data biner (regresi logistik), data kontinu 2-level, regresi logistik polikotomus, dan odds proporsional. Dalam skripsi ini digunakan data penduduk Indonesia dengan menggunakan data sekunder dari Badan Pusat Statistik yang bersumber dari Buku Indikator Kesejahteraan Rakyat 2011 dan Profil Kesehatan Ibu Anak 2012. Dari data tersebut ingin diketahui pengaruh Persentase Penduduk Miskin, Persentase Tidak Melakukan Kunjungan Ibu Hamil K1, Persentase Tidak Melakukan Kunjungan Ibu Hamil K4, Persentase Balita Yang Mempuyai Keluhan Kesehatan dan Persentase Bayi Berat Lahir Rendah Angka Kematian Bayi di Indonesia 1.2.Perumusan dan Batasan Masalah Berdasarkan latar belakang dan kajian-kajian pendukung lainnya, maka penulis membatasi penulisan skripsi ini. Imputasi multivariat dengan chained equation pada kasus regresi linear digunakan untung mengestimasi nilai data hilang dan untuk menentukan model regresinya.
1.3. Tujuan Penelitian Tujuan yang ingin dicapai dari penulisan skripsi ini adalah: 1. Sebagai salah satu syarat untuk memperoleh gelar sarjana pada Program Studi Statistika, Jurusan Matematika, Universitas Gadjah Mada. 2. Mempelajari metode imputasi multivariat dengan chained equation (MICE) sebagai salah satu metode untuk mengestimasi nilai data hilang pada suatu data penelitian.
1.4. Manfaat Penelitian Manfaat dari penulisan skripsi ini adalah: 1. Memberikan gambaran tentang data hilang dan cara mengatasinya. 2. Memberikan penjelasan tentang estimasi nilai data hilang yang digunakan untuk menangani data hilang pada suatu kasus. 3. Memperkenalkan metode multivariat dengan chained equation (MICE) sebagai salah satu cara mengatasi data hilang terutama pada kasus analisis statistik regresi. 4. Mengaplikasikan teori multivariat dengan chained equation (MICE) untuk menyelesaikan permasalahan pada studi kasus.
1.5. Tinjauan Pustaka Analisis data hilang pertama kali diteliti oleh Rubin (1976) pada jurnalnya yang berjudul Inference and Missing Data. Sebelumnya banyak metode alternatif yang
telah
diusulkan,
diantaranya
adalah
metode
listwise
deletion,
pairwisedeletion dan masih banyak lagi. Namun kemudian berkembang dua pendekatan baru untuk mengatasi data hilang yaitu maximum likelihood dan multiple imputation. Selanjutnya metode imputasi ganda atau multiple imputation pertama kali diteliti oleh Donald B. Rubin dalam bukunya yang berjudul Multiple Imputation for Nonresponse in Surveys pada tahun 1987. Imputasi ganda merupakan suatu teknik yang mengatasi data hilang dengan mengganti data yang hilang dengan dua atau lebih nilai yang mungkin yang mewakili distribusi kemungkinan (Rubin, 1977, 1978).
Sedangkan pada MICE (Buuren et al. 1999), setiap variabel memiliki model yang diimputasi sendiri dan dapat digunakan untuk berbagai model data seperti data kontinu, data biner (regresi logistik), data kontinu 2-level, regresi logistik polikotomus, dan odds proporsional. 1.6. Metode Penelitian Metode penulisan yang digunakan dalam karya tulis ini adalah berdasarkan studi literatur yang didapatkan dari perpustakaan serta jurnal-jurnal dan buku-buku yang berhubungan dengan tema dari tugas akhir ini. Sumber lainnya juga diperoleh melalui situs-situs pendukung yang tersedia di internet. Pengerjaan karya tulis ini juga ditunjang dengan beberapa perangkat lunak yaitu Microsoft Excel 2007, SPSS 17.0 dan R versi 3.1.1. 1.7. Sistematika Penulisan Sistematika penulisan tugas akhir ini terdiri dari lima bab, yaitu sebagai berikut: BAB I Pendahuluan Bab ini membahas tentang latar belakang dan permasalahan, tujuan penulisan, manfaat penulisan, perumusan dan batasan masalah, tinjauan pustaka, metode penulisan dan sistematika penulisan.
BAB II Dasar Teori Bab ini membahas tentang teori-teori yang berhubungan dengan tema tugas akhir ini, khususnya teori-teori yang berhubungan dengan data hilang dan imputasi multivariat dengan chained equation.
BAB III Imputasi Multivariat dengan Chained Equations (MICE) Bab ini membahas tentang metode menggunakan imputasi multivariat chained equation (MICE) dalam menangani permasalahan data hilang.
BAB IV Studi Kasus Bab ini membahas tentang aplikasi metode imputasi multivariat chained equation (MICE) dalam menangani permasalah data hilang pada data Angka Kematian Bayi di Indonesia tahun 2012. Pengolahan data digunakan software R versi 3.1.1 dan SPSS 17.
BAB V Penutup Bab ini membahas tentang kesimpulan yang diperoleh dari hasil pembahasan pada bab-bab sebelumnya. Bab ini juga membahas saransaran yang diberikan penulis atas permasalahan yang terjadi.