BAB I PENDAHULUAN
1.1.
Latar Belakang dan Permasalahan Analisis regresi merupakan suatu metode dalam statistik yang popular,
karena banyak digunakan pada penelitian dalam berbagai bidang. Contoh dari penggunaan analisis regresi dalam bidang kesehatan adalah untuk mengetahui apakah terdapat hubungan antara kebiasaan merokok dengan terkena penyakit kanker paru-paru. Sedangkan di bidang ekonomi adalah untuk mengetahui apakah periklanan suatu produk mempengaruhi penjualan produk tersebut. Model regresi merupakan suatu cara formal untuk mengekspresikan dua unsur penting suatu hubungan statistik, yaitu kecenderungan berubahnya variabel dependen (dependent variabel)
secara sistematis sejalan dengan berubahnya
variabel independen (independent variabel)
dan berpencarnya titik-titik di
sekitar kurva hubungan statistik itu. Model regresi dasar yang melibatkan satu variabel independen dan fungsi regresinya linear. Sebuah model regresi umumnya digunakan untuk mempelajari hubungan antara variabel respon variabel penjelas (variabel
dan satu set
). Variabel respon disebut juga variabel dependen
atau variabel hasil, dan variabel penjelas juga disebut variabel independen atau prediktor atau kovariat. Dalam analisis regresi biasa, variabel respon diasumsikan variabel random kuantitatif mengikuti distribusi normal dengan varians konstan. Variabel penjelas dapat menjadi kuantitatif atau kategoris. Sebuah model regresi dapat disebut model analisis varians (ANOVA) jika semua variabel
berupa kategorik, dan mungkin khususnya disebut analisis model
varians jika beberapa variabel
adalah kuantitatif dan sisanya kategorik.
Dalam analisis regresi, tentu saja diperlukan data. Karena data merupakan bahan utama yang nantinya akan diolah sehingga menghasilkan suatu kesimpulan dari apa yang diduga pada awal penelitian. Hal ini tentu saja membuat analisis regresi bergantung pada data. Dalam pengolahan data tentu saja diharapkan agar data yang dipakai adalah data yang baik.
1
2
Data yang baik sangat dibutuhkan agar kesimpulan yang dihasilkan dari penelitian tidak jauh berbeda dengan keadaan yang sebenarnya. Data yang baik adalah data yang mampu memberikan gambaran mengenai keadaan yang diamati. Namun tidak jarang database yang menyimpan pengukuran atau data medis mungkin akan terdapat nilai-nilai yang hilang baik pada saat akusisi atau proses penyimpanan data. Pengumpulan data pengamatan tidak selalu berjalan dengan mulus, adakalanya terjadi bermacam kendala yang mengakibatkan data menjadi tidak lengkap atau memuat beberapa nilai yang hilang, sehingga menyulitkan pada saat melakukan analisis statistik. Ada beberapa alasan terjadinya data hilang. Data hilang dapat terjadi karena pengukuran yang mungkin tidak lengkap, kesalahan yang terjadi pada prosedur pengumpulan data atau karena responden menolak untuk menjawab beberapa pertanyaan tertentu dalam survey atau karena munculnya hipotesis baru yang menarik setelah pengumpulan data dilakukan. Masalah data yang hilang akan menjadi lebih luas sehingga menarik perhatian banyak peneliti dan ahli statistik. Selama bertahun-tahun, ahli statistik telah berusahan untuk mengembangkan berbagai metode dan teknik untuk mengatasi kesulitan analisis data yang disebabkan oleh data yang hilang. Little dan Rubin (1987) membagi tiga tipe mekanisme dari missing data. Pertama, Missing completely at random (MCAR) yang berarti bahwa terjadinya missing data tidak berkaitan dengan nilai semua variabel, apakah itu variabel missing value atau variabel yang terobservasi. Hal ini berarti missing data terjadi secara acak. Kedua, Missing at random (MAR), MAR terjadinya missing data hanya berkaitan dengan variabel respon atau variabel pengamatan. Contohnya seseorang yang memiliki rasa waswas yang tinggi cenderung tidak akan melaporkan pendapatan mereka, rasa waswas akan berhubungan pada pelaporan pendapatan. Namun, peluang penderita waswas sendiri untuk melaporkan pendapatan tidak berhubungan dengan tingkat pendapatan, maka data dapat digolongkan dengan MAR. Jika data adalah MCAR atau MAR, dapat dikatakan missingness diabaikan. Sedangkan tipe ketiga adalah Missingness not at random
3
bahwa terjadinya missing data pada suatu variabel berkaitan dengan variabel itu sediri, sehingga ini tidak bisa diprediksi dari variabel lain pada suatu dataset. Selama
bertahun-tahun,
ahli
statistik
telah
berusahan
untuk
mengembangkan berbagai metode dan teknik untuk mengatasi kesulitan analisis data yang disebabkan oleh data yang hilang. Masalah data hilang akan menimbulkan kesulitan untuk analisis dan proses pengambilan keputusan, sehingga dibutuhkan metode estimasi yang akurat dan efisien. Berbagai teknik yang ada untuk mengatasi masalah ini, mulai dari penghapusan metode menggunakan teknik kecerdasan buatan dan statistik untuk imputasi variabel yang hilang. Namun beberapa metode statistik, seperti subtitusi rata-rata yang memiliki kemungkinan yang tinggi untuk menghasilkan estimasi bias atau membuat asumsi tentang data yang mungkin tidak benar, hal ini mempengaruhi kualitas keputusan berdasarkan data ini. Teknik atau metode paling tradisional yang digunakan diantaranya adalah listwise deletion dan pairwise deletion. Listwise deletion merupakan metode untuk mengatasi data hilang dengan cara menghapus data yang hilang tersebut dari sampel. Kelebihan dari metode ini adalah dapat digunakan untuk setiap jenis analisis statistik dan tidak membutuhkan komputasi yang rumit. Namun kelemahannya adalah akan membuat kesimpulan menjadi tidak valid karena hanya sekedar menghapus data hilang yang ada. Kemudian ide dari pairwise deletion adalah membuang sepasang pengamatan yang mengandung data hilang. Selain itu Little dan Rubin (1987) juga memperkenalkan berbagai macam metode untuk mengatasi data hilang (missing data), diantaranya adalah: complete case analysis yaitu membuang observasi yang terdapat data hilang dan estimasi mengarah kepada standar error yang lebih besar karena jumlah sampel berkurang. Kemudian dikenal metode modern, metode modern tidak lagi hanya sekedar menghapus kasus yang mengandung data hilang, tetapi juga mengganti data hilang tersebut dengan nilai estimasi. Nilai estimasi ini diperoleh dengan berbagai cara dan metode yang berbeda. Dalam metode modern dikenal dua metode, yaitu imputasi ganda dan maksimum likelihood. Maksimum likelihood dan metode imputasi ganda memiliki sifat yang hampir sama. Namun penulis
4
memilih metode maksimum likelihood daripada imputasi ganda dalam menyelesaikan tesis ini karena maksimum likelihood lebih efisien daripada imputasi ganda, dengan data set yang sama maksimum likelihood selalu memberikan hasil yang sama sedangkan imputasi ganda memberikan hasil yang berbeda setiap kali digunakan. Algoritma EM adalah algoritma yang umum digunakan untuk menghitung estimasi maksimum likelihood yang digunakan untuk keadaan yang menyertakan pengamatan yang hilang. Algortima EM pertama kali diteliti secara sistematik oleh Dempster, Laird, dan Rubin (1977). Algoritma EM adalah proses dua langkah untuk mengestimasi parameter suatu model data tidak lengkap. Langkah awalnya adalah membagi data ke dalam dua bagian, yaitu bagian missing dan nonmissing, kemudian mengestimasi nilai data yang hilang melalui regresi linear sehingga data menjadi lengkap. Regresi awal yang digunakan diambil dari data yang teramati saja, dengan syarat dapat meningkatkan parameter awal. Pada proses iterasi selanjutnya estimasi data hilang diperoleh dari persamaan regresi linear data lengkap pada data sebelumnya. Langkah akan terus berjalan sampai data yang hilang menjadi konvergen, sehingga didapatkan parameter yang maksimal. Berdasarkan keadaan tersebut, peneliti akan membahas metodologi algoritma ekspektasi maksimisasi untuk analisis maksimum likelihood pada model regresi linear dengan variabel independen berupa kategorik yang beberapa variabelnya terdapat data yang hilang dengan parameter constraint . Selanjutnya ingin diteliti tiga metode klasifikasi data hilang. Metode yang dinyatakan baik adalah klasifikasi data hilang dengan tingkat kekonvergenan untuk iterasi paling sedikit dan kemudian menghitung tingkat kekonvergenan dengan menggunakan standar error missing information principle. Tetapi karena tidak mungkin peneliti menghitung setiap iterasi secara manual, maka akan digunakan bantuan program R 2.11.1. Dan karena keterbatasan package maka peneliti membuat program dengan bantuan sumber beberapa buku pemograman R, google, tesis dan skripsi.
5
1.2.
Rumusan dan Batasan Masalah
Dari latar belakang di atas, permasalahan yang timbul adalah 1. Bagaimana menetukan data hilang berdasarkan klasifikasinya? 2. Bagaimana mengestimasi parameter pada analisis regresi linear sederhana dengan parameter constraint
untuk beberapa data yang
hilang dengan menggunakan metode maksimum likelihood pada algoritma ekspektasi maksimasi? 3. Karena keterbatasan package di program R, bagaimana membuat program untuk menentukan estimasi data hilang? Berdasarkan rumusan masalah tersebut, pembatasan masalah dalam penelitian ini adalah 1. Pada model regresi variabel independen bernilai diskrit. 2. Nilai variabel yang dihilangkan hanya pada variabel independen. 3. Model regresi yang digunakan adalah model regresi linear sederhana dengan satu kendala berupa persamaan
.
4. Standar error yang digunakan untuk mencari tingkat kekonvergenan adalah metode Missing Information Principle.
1.3.
Manfaat dan Tujuan Penelitian
Tujuan Penelitian adalah sebagai berikut: 1. Mempelajari teknik algoritma ekspektasi maksimasi (EM) sebagai algoritma untuk menghitung estimasi maksimum likelihood. 2. Menentukan penduga parameter dalam regresi linear dengan menggunakan algoritma EM jika variabel respon hilang dan mekanisme data hilang tidak dapat diabaikan. Sedangkan manfaat penelitian ini adalah: 1. Bagi mahasiswa matematika dan statistika dapat menambah refrensi tentang analisis regresi linear sederhana dengan data hilang. 2. Bagi pembaca pada umumnya dapat menggunakan analisis regresi linear sederhana dengan data hilang untuk menganalisis data-data penelitian.
6
1.4.
Tinjauan Pustaka Analisis data hilang pertama kali diteliti oleh Rubin (1976), dalam
jurnalnya yang berjudul Inference and Missing Data. Kemudian algoritma EM pertama kali diteliti oleh Dempster, Laird and Rubin 1977 pada jurnal Maximum Likelihood from Incomplete Data Via EM Algotihm. Algoritma EM adalah algoritma yang biasa digunakan untuk menghitung estimasi maksimum likelihood dan digunakan untuk keadaan dimana data yang diberikan berisi pengamatan yang hilang. Little dan Rubin pada tahun 1987 menyajikan algoritma EM yang berhubungan dengan analisis data hilang dalam Statistical Analysis with Missing Data. Istiqomah (2007) menulis penelitiannya bahwa algoritma EM dapat digunakan sebagai solusi atau penyelesaian dalam menentukan estimasi parameter melalui metode estimasi maksimum likelihood pada kasus data yang hilang. Sulistijowati,S (2001) menulis penelitian dengan judul “Pendugaan parameter regresi logistik untuk data tak lengkap dengan mekanisme data hilang” menyatakan dengan menggunakan metode penduga parameter model regresi logistik jika variabel respon hilang dan meakanisme data hilang tidak dapat diabaikan, dengan menggunakan metode logit untuk mekanisme data hilang pendugaan parameter dapat dikerjakan dengan menggunakan algoritma EM dengan metode bobot. Anastasia (2013) menulis dalam penelitian dengan judul “Estimasi nilai data hilang pada regresi linear sederhana menggunakan algoritma ekspektasi maksimisasi” menyatakan estimasi data hilang dapat dilakukan dengan menggunakan algoritma ekpektasi maksimisasi pada data dengan model regresi linear sederhana. (Lim, 2007) menggunakan tiga model regresi tertentu yang melibatkan berbagai jenis variabel prediktor dengan mengasumsikan data hilang secara acak dalam proses pemodelan ketika menghitung MLE dan diperoleh EM algoritma untuk menghitung estimasi kemungkinan maksimum (MLE) dari ketiga model tersebut, tetapi juga menerapkan metode Louis untuk menurunkan rumus untuk menghitung varians-kovarians dari MLE.
7
1.5.
Metodologi Penelitian Metode yang digunakan dalam penelitian ini adalah studi literatur acuan
utama adalah jurnal yang ditulis oleh Dempster, Laird, dan Rubin (1977) serta Little dan Rubin (1987) yang membahas secara khusus tentang algoritma ekspektasi maksimisasi dengan menggunakan data hilang. Adapun perbedaan antar jurnal dengan tesis ini, penulis menggunakan standar error missing information
principle
untuk
menghitung
tingkat
kekonvegenan
dan
membandingkan klasifikasi data hilang dengan tiga metode. Adapun langkahlangkah pengerjaan program R yang dilakukan oleh penulis akan disajikan dalam bentuk diagram berikut:
Step 1
Step 2 MCAR
Input data
MAR
Step 3
Mengurutkan data NA
Step 4
Menghitung pmf
Step 5
Menghitung MLE
Step 6
MNAR
Menampilkan output hasil iterasi
Menghitung tingkat Step 7 kekonvergenan dengan menggunakan MIP
Gambar 1.1 Alur Kerja Program R
Klasifikasi Data Hilang
8
1.6.
Sistematika Penulisan
Tesis ini disusun dengan sistematika penulisan sebagai berikut: BAB I
PENDAHULUAN Bab ini berisi Latar Belakang dan Permasalahan, Tujuan dan Manfaat Penelitian, Tinjauan Pustaka, Metodologi Peneleitian dan Sistematika Penulisan.
BAB II
LANDASAN TEORI Bab ini membahas tentang teori dasar yang mendukung pembahasan pada bab selanjutnya, khususnya teori-teori yang berhubungan dengan data hilang, estimasi maksimum likelihood, dan algoritma Ekspektasi Maksimasi (EM).
BAB III
PEMBAHASAN Dalam pembahasan ini akan dipaparkan mengenai algoritma EM dan aplikasinya dalam memaksimalkan fungsi likelihood untuk model regresi linear sederhana pada kasus data hilang.
BAB IV
STUDI KASUS Pada studi kasus ini akan dicoba untuk menggunakan algoritma EM (Expectation maximization) dan aplikasinya mengestimasi regresi linear dengan menggunakan MLE untuk data hilang.
BAB V
PENUTUP Bab ini berisi tentang kesimpulan yang diperoleh dari hasil pembahasan dan saran sebagai akibat dari kekurangan atau kelebihan dari hasil penelitian yang dilakukan.