BAB I PENDAHULUAN
1.1
Latar Belakang Masalah Analisis data survival merupakan salah satu bidang dalam statistika yang
digunakan untuk menganalisis data yang mengukur waktu terjadinya suatu kejadian (event). Dalam hal ini kejadian yang dapat diukur tidak hanya permasalahan yang berkaitan dengan peristiwa kematian, banyak kejadian lain yang dapat diukur diantaranya adalah lama waktu kelulusan dari suatu perguruan tinggi, lama waktu sembuh dari suatu penyakit, dan masih banyak lagi yang lainnya. Pengaplikasian analisis data survival-pun sangat beragam, salah satu contohnya analisis data survival dalam perbankan khususnya pada bagian resiko kredit. Dalam penulisan ini diambil studi kasus tentang resiko kredit pensiun Bank BTPN. Masalah utama yang dihadapi dalam pemberian kredit oleh Bank BTPN adalah meninggalnya debitur sebelum pelunasan. Walaupun telah di-cover oleh pihak asuransi, kejadian tersebut masih merugikan Bank BTPN diantaranya adalah akan berkurangnya bunga hasil pinjaman yang didapat oleh Bank BTPN sehingga berdampak kepada berkurangnya pendapatan potensial yang akan didapat Bank BTPN. Dengan menggunakan analisis data survival bank akan mengetahui berapakah jangka waktu optimum peminjaman yang dapat dilakukan oleh debitur dengan karakteristik tertentu. Dalam analisis survival terdapat dua hal yang menjadi perhatian yaitu waktu dan kejadian. Waktu survival (survival time) yang dapat berupa tahun, bulan, minggu, hari, jam, menit bahkan detik dari awal ketika pengamatan dimulai sampai suatu kejadian terjadi. Kejadian (event) dapat berupa kematian, terjangkitnya suatu penyakit, sembuh dari suatu penyakit, lulus kuliah, dan lain sebagainya sesuai dengan tujuan dari penelitian yang dilakukan. Penelitian sering kali dilakukan dalam suatu periode tertentu saja, hal ini dikarenakan tidak dimungkinkannya untuk mengamati selalu suatu subjek dalam
1
2
jangka waktu yang lama, dan jika hal tersebut dilakukan maka akan berdampak pada diperlukannya jumlah uang, waktu, dan tenaga yang lebih banyak. Hal tersebut mengakibatkan tidak semua subjek mengalami event selama periode penelitian tersebut. Data yang diperoleh dari subjek yang tidak mengalami event sampai penelitian berakhir disebut dengan data tersensor (censored data). Selain dari tidak mengalaminya event oleh sekelompok subjek, data tersensor juga dapat berasal dari hilangnya subjek yang diteliti ketika penelitian masih berlangsung. Data tersensor dapat mengakibatkan sejumlah kesulitan atau kendala dalam analisis karena data tersensor tidak bisa diestimasi dengan baik jika menggunakan metode statistika standar. Tedapat beberapa pemecahan masalah estimasi untuk data tersensor contohnya adalah menggunakan product-limit estimator atau yang dikenal juga dengan nama Estimator Kaplan-Meier. Pada Estimator Kaplan-Meier, nilai estimasi fungi survival pada waktu tersensor diasumsikan sama dengan fungsi pada waktu sebelumnya. Hal tersebut akan menimbulkan nilai variansi yang besar. Berbeda dengan Kaplan-Meier, Koziol-Green pada tahun 1976 menawarkan model estimasi untuk data tersensor dimana nilai estimasi fungsi survival pada saat data tersensor tidak sama dengan fungsi survival pada saat sebelumnya sehingga menghasilkan estimator yang memiliki presisi lebih tinggi. Data survival, seperti halnya data yang diperoleh dari berbagai macam penelitian maupun permasalahan nyata, biasanya melibatkan lebih dari satu variabel. Apabila variabel independen yang diteliti lebih dari satu, dimana variabel independen tersebut dipandang mempengaruhi data survival, maka untuk analisis data survival pada data seperti itu perlu digunakan model regresi. Saat ini sudah banyak model regresi untuk analisis data survival diantaranya adalah regresi survival parametrik, dan regresi Cox. Regresi survival parametrik dapat dilakukan jika variabel dependen mengikuti suatu distribusi parametrik, namun jika hal ini tidak dapat tercapai analisis lain yang dapat digunakan adalah regresi Cox. Model regresi Cox merupakan model regresi hazard proporsional sehingga asumsi dasar dari regresi Cox ini adalah hazard proporsional, namun jika asumsi tersebut tidak terpenuhi kita dapat menggunakan metode alternatif
3
yaitu regresi linear untuk data tersensor dengan estimator Buckley-James. Namun, sayangnya regresi linear dengan estimator Buckley-James ini biasanya menggunakan estimator Kaplan-Meier dalam mengestimasi data tersensor, sehingga dalam skripsi ini akan dibahas bagaimana jika digunakan model estimasi Koziol-Green dalam mengestimasi data tersensor untuk regresi Buckley-James.
1.2
Pembatasan Masalah Pemodelan untuk data tersensor telah banyak mengalami perkembangan
terutama dalam mengatasi kekurangan metode estimasi Kaplan-Meier. Salah satu bentuk pengembangannya adalah munculnya model Koziol-Green. Selain itu, telah banyak pula metode yang dapat digunakan untuk mengatasi kendala yang muncul pada model regresi Cox, salah satu yang dapat digunakan adalah estimator Buckley-James. Agar pemecahan masalah lebih terfokus, maka pembahasan dibatasi hanya pada estimasi model regresi Buckley-James menggunakan metode least square dengan menggunakan estimator Koziol-Green dalam pemecahan masalah data tersensor.
1.3
Tujuan Penulisan Skripsi yang berjudul “Regresi Buckley-James dengan Koziol-Green untuk
Data Tersensor” ditulis sebagai salah satu syarat untuk memperoleh derajat sarjana S1 Program Studi Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Gadjah mada. Tujuan dari penulisan ini bertujuan untuk : 1. Mempelajari estimator Buckley-James. 2. Mempelajari estimasi data tersensor dengan model Koziol-Green. 3. Mempelajari model regresi linear dengan menggunakan estimator Buckley-James dimana data yang tersensor ditangani menggunakan model Koziol-Green. 4. Menerapkan aplikasi teknik analisis regresi linear dengan estimator Buckley-James dimana data yang tersensor ditangani menggunakan model Koziol-Green.
4
Selanjutnya hasil dari penelitian ini diharapkan menambah wawasan bagi siapa saja, terutama bagi yang mendalami bidang analisis data survival sehingga dapat digunakan sebagai batu pijakan untuk penelitian lebih lanjut. 1.4
Tinjauan Pustaka Beberapa teknik dalam menganalsis data dengan variabel dependen
mengandung data tersensor telah diperkenalkan. Model yang paling popular dan luas penggunaanya adalah regresi Cox yang disebut juga dengan Cox’s proportional hazard model. Diikuti dengan model AFT (accelerated failure-time model) yang salah satu contoh modelnya adalah regresi survival parametrik. Model Cox dan model AFT mengestimasi fungsi survival dan fungsi hazard pada saat waktu t atau dengan kata lain model Cox dan model AFT merupakan model fungsi hazard atau fungsi survival. Sehingga untuk melakukan prediksi layaknya model regresi linear biasa akan sulit untuk dilakukan. Buckley-James memutuskan pendekatan least square untuk membentuk model regresi linear dengan variabel dependen mengandung data tersensor. Ide dasarnya adalah dengan mengubah censored point pada data tersensor tersebut ke nilai ekspektasinya berdasarkan product-limit estimator atau sering disebut estimator Kaplan-Meier. Namun, Wu (2001) dalam jurnalnya yang berjudul “On Linear Regression Under Koziol-Green Model of Random Censorship” menggunakan model KoziolGreen dalam mengubah censored point pada data ke nilai ekspektasinya. Dimana pada tesisnya, Sidiq (2014) menuliskan bahwa jika terdapat observasi tersensor dengan jumlah yang tidak terlalu sedikit, misal 25% dari keseluruhan observasi maka model estimasi Koziol-Green memiliki variansi yang lebih kecil jika dibandingkan dengan estimator Kaplan-Meier. 1.5
Metode Penulisan Metode penulisan skripsi ini berdasarkan studi literatur dengan mempelajari
sumber-sumber yang diperoleh dari perpustakaan dan buku-buku statistik serta jurnal-jurnal ilmiah yang digunakan sebagai referensi. Sumber lain diperoleh dari
5
situs-situs penunjang di internet serta sumber-sumber lain yang menyajikan masalah terkait. 1.6
Sistematika Penulisan Skripsi yang membahas tentang regresi linear dengan model Koziol-Green
untuk data tersensor ini dibagi kedalam beberapa bab, seperti berikut : Bab I
PENDAHULUAN Bab ini berisi tentang pengenalan estimator BuckleyJames dan model Koziol-Green, latar belakang masalah, tujuan dan manfaat penelitian, pembatasan masalah, tinjauan pustaka, metode penulisan, dan sistematika penulisan
Bab II
LANDASAN TEORI Bab ini berisi tentang dasar-dasar teori yang terkait yang digunakan selama penulisan skripsi diantaranya adalah tentang data tersensor dan terpotong dalam analisis data survival, fungsi survival dan fungsi hazard serta hubungan keduanya,
estimator
Kaplan-Meier,
model
estimasi
Koziol-Green, Regresi Linear, dan metode estimasi least square error. Bab III
ESTIMASI
MODEL
DENGAN
REGRESI
KOZIOL-GREEN
BUCKLEY-JAMES UNTUK
DATA
TERSENSOR Bab ini membahasa tentang batasan masalah yaitu, model regresi Buckley-James menggunakan metode least square dengan menggunakan model estimasi Koziol-Green dalam pemecahan masalah data tersensor. Bab IV
SIMULASI DAN STUDI KASUS Bab ini membahas tentang aplikasi regresi Buckley-James dengan menggunakan model estimasi Koziol-Green dalam
6
pemecahan masalah data tersensor. Data yang digunakan adalah data kredit Bank BTPN KCP Ngawi. Bab V
PENUTUP Bab ini berisi kesimpulan yang diperoleh dari pembahasan masalah dan saran yang muncul akibat dari kekurangankekurangan yang muncul pada proses pembahasan masalah.