BAB I PENDAHULUAN
1.1. Latar Belakang Masalah
Distribusi probabilitas binomial adalah distribusi probabilitas diskrit yang paling sering digunakan untuk merepresentasikan kejadian dalam kehidupan sehari-hari. Salah satu ciri distribusi binomial adalah hanya memiliki dua hasil yang mungkin terjadi dalam sebuah percobaan. Sebagai contoh, pernyataan dari pertanyaan benar atau salah hanya dapat berupa “benar” atau “salah”. Hasilnya tidak terikat satu sama lain, yang artinya jawaban untuk sebuah pertanyaan benar atau salah tidak mungkin sekaligus “benar” dan “salah”. Contoh lainnya, suatu produk diklasifikasikan sebagai “dapat diterima” atau “tidak dapat diterima” oleh divisi quality control suatu perusahaan. Lebih lanjut dua kategori yang mungkin terjadi ini diklasifikasikan sebagai kejadian “gagal” atau “sukses”. Akan tetapi, klasifikasi ini tidak serta-merta menyatakan bahwa satu hasil adalah baik dan yang lainnya tidak baik (Lind dan kawan-kawan, 2007). Ciri-ciri lain distribusi binomial adalah variabel randomnya berupa banyaknya kejadian sukses yang dihitung dari sejumlah percobaan. Sebagai contoh, percobaan pelemparan sekeping koin sebanyak lima kali maka dapat didefinisikan variabel random banyaknya kejadian muncul gambar. Ciri-ciri berikutnya dari distribusi binomial adalah bahwa probabilitas dari suatu kejadian sukses tetap sama meskipun percobaannya diulang beberapa kali. Misalkan probabilitas menebak pertanyaan benar atau salah pertama dengan benar (kejadian sukses) adalah setengah maka probabilitas menebak pertanyaan kedua dengan benar adalah juga setengah, begitu juga pada percobaan seterusnya. Ciri-ciri terakhir dari distribusi binomial adalah bahwa setiap percobaan saling independen, yang artinya hasil dari suatu percobaan tidak mempengaruhi hasil dari percobaan yang lain.
1
2
Dalam statistika inferensia, dipelajari estimasi titik yaitu suatu metode untuk menentukan nilai tunggal yang berasal dari sampel dan digunakan untuk memperkirakan parameter populasi. Suatu nilai penduga atau statistik yang dapat berupa mean, median, modus, dan varian sampel yang digunakan untuk mengestimasi suatu parameter populasi disebut dengan estimator. Berkaitan dengan estimasi parameter, pada tahun 1800 Karl Pearson memperkenalkan metode estimasi tertua yang disebut dengan Metode Momen. Dalam prosesnya, metode momen menyamakan karakteristik sampel tertentu seperti mean dan varians untuk nilai-nilai populasi yang diharapkan kemudian menyelesaikan persamaan yang dihasilkan untuk mendapatkan nilai perkiraan parameter yang tidak diketahui. Metode momen merupakan metode yang relatif sederhana dan menghasilkan estimator yang konsisten. Meski demikian, metode momen seringkali menghasilkan estimator yang bersifat bias, untuk memecahkan permasalahan ini Ronald Fisher memperkenalkan metode yang disebut dengan metode Maximum Likelihood Estimation pada tahun 1913. Prinsip utama dari metode ini adalah memaksimumkan fungsi kemungkinan (likelihood) dengan syarat random sampel mengikuti distribusi probabilitas tertentu. Misalkan
suatu variabel random berdistribusi Binomial ( , ) dengan
banyak percobaan n diketahui, maka parameter probabilitas kejadian sukses p akan diestimasi berdasarkan informasi mengenai . Untuk memperoleh estimator bagi p dengan banyak kejadian sukses diketahui secara tepat, maka menggunakan metode Maximum Likelihood Estimation diperoleh estimator ̂ = , dengan menyatakan kejadian sukses teramati (Lehmann dan Casella, 1998). Akan tetapi jika diketahui banyak percobaan sedangkan banyak kejadian sukses hanya diketahui terletak dalam suatu interval misalkan [ ,
] dengan
dan
merupakan bilangan bulat antara 0 dan n maka diperoleh estimasi yang sedikit berbeda (Frey dan Marrero, 2008). Salah satu permasalahan yang ditemui dalam estimasi parameter adalah adanya pengamatan yang tidak lengkap, yang secara umum dapat dikelompokkan menjadi
data
tersensor
(censored)
dan
data
terpotong
(truncated).
Ketidaklengkapan data yang diperoleh dapat disebabkan karena beberapa faktor
3
seperti keterbatasan informasi, keterbatasan sumber daya, maupun terjadi hal yang tidak terduga. Perbedaan keadaan dapat menghasilkan tipe tersensor yang berbeda pula (Pique, 2006). Data tersensor kiri, tersensor kanan, serta data lengkap adalah kasus khusus dari data tersensor interval. Data tersensor kiri memiliki nilai interval bawah nol sedangkan data tersensor kanan memiliki nilai interval atas tak hingga. Salah satu yang dapat diketahui dari tersensor interval adalah jarak (range), yaitu sebuah interval, yang berada pada saat terjadinya peristiwa event (Klein dan Moeschberger, 1997). Kejadian yang menghasilkan data tersensor erat kaitannya dengan analisis survival yaitu analisis data yang memanfaatkan informasi kronologis dari suatu peristiwa (event). Respon yang diperhatikan adalah waktu sampai terjadinya suatu event sedangkan waktu yang dibutuhkan objek untuk bertahan selama periode pengamatan disebut survival time atau failure time. Ketidaklengkapan informasi memunculkan permasalahan dalam inferensi yang meliputi pendugaan parameter variabel random berdistribusi binomial. Hal ini mendorong penulis untuk melakukan estimasi parameter distribusi binomial tersensor interval dengan menggunakan metode Maximum Likelihood Estimation, mempelajari sifat estimator, dan melakukan modifikasi distribusi binomial tersensor interval pada analisis survival.
1.2. Rumusan Masalah
Berdasarkan uraian pada latar belakang masalah diperoleh rumusan masalah sebagai berikut: 1. Bagaimana estimasi menggunakan metode Maximum Likelihood Estimation pada distribusi binomial tersensor interval? 2. Bagaimana sifat yang dimiliki estimator metode Maximum Likelihood Estimation pada distribusi binomial tersensor interval? 3. Bagaimana estimasi survival pada data tersensor interval?
4
1.3. Tujuan Penelitian
Adapun tujuan dari penulisan tesis ini adalah untuk melakukan estimasi parameter distribusi binomial tersensor interval dengan menggunakan metode Maximum Likelihood Estimation.
1.4. Manfaat Penelitian
Adapun penelitian ini diharapkan bermanfaat untuk menambah keilmuan statistika di bidang estimasi parameter pada distribusi binomial tersensor interval dengan menggunakan metode Maximum Likelihood Estimation.
1.5. Tinjauan Pustaka
Literatur utama yang menjadi acuan dalam penelitian ini adalah artikel “A Surprising Maximum Likelihood Estimation for Interval Censored Binomial Data” yang ditulis oleh Jesse Frey dan Osvaldo Marrero dan diterbitkan oleh The American Statistician pada tahun 2008. Artikel ini membahas mengenai estimasi parameter distribusi binomial tersensor interval dengan menggunakan metode Maximum Likelihood Estimation dan menjelaskan sifat estimator yang diperoleh. Dalam penelitian ini, penulis juga memberikan contoh aplikasi estimasi dengan menggunakan metode Maximum Likelihood Estimation data tersensor interval dalam analisis survival. Sulitnya memperoleh data tersensor interval terutama yang terjadi di Indonesia, penulis merujuk artikel “A Semiparametric Model for Regression Analysis of Interval-Censored Failure Time Data” yang ditulis oleh Dianne M. Finkelstein dan Robert A. Wolfe dan diterbitkan oleh Biometrics pada tahun 1985. Dalam mempelajari konsep data tersensor interval, penulis merujuk artikel penunjang di antaranya yang ditulis Zhigang Zhang dan Jianguo Sun (2010) yang berjudul Interval Censoring, yaitu bahwa data tersensor interval diartikan sebagai variabel random yang menjadi perhatian hanya diketahui terletak dalam suatu
5
interval. Contoh data tersensor interval banyak terjadi dalam studi medis atau kesehatan. Penelitian tentang estimasi parameter dengan menggunakan metode Maximum Likelihood Estimation pada data tak lengkap sebelumnya pernah dilakukan oleh A.P. Dempster dan kawan-kawan dalam artikelnya yang berjudul Maximum Likelihood from Incomplete Data via the EM Algorithm pada tahun 1977.
Lebih
khusus
Dempster
melakukan
analisis
komputasi
dengan
menggunakan metode algoritma expectation maximisation. H.O. Hartley pada tahun 1958 melakukan penelitian estimasi parameter data tersensor dan terpotong dari suatu distribusi variabel random diskrit dalam artikelnya yang berjudul Maximum Likelihood Estimation from Incomplete Data. Hartley menggunakan metode Maximum Likelihood Estimation sebagaimana diperkenalkan oleh R.A. Fisher pada data tak lengkap yang berdistribusi Poisson dan distribusi Binomial. Sedangkan Jian Huang dan Jon A. Wellner membahas data tersensor interval secara spesifik dalam aplikasinya di analisis survival dalam artikelnya yang berjudul Interval Censored Survival Data: A Review of Recent Progress pada tahun 1997. Huang dan Wellner mendefinisikan data tersensor interval terjadi ketika waktu gagal (failure time) T tidak teramati. Sementara itu Edwin Joseph Hughes mendefinisikan suatu sampel random dari distribusi tersensor merupakan data tersensor, yaitu tak lengkap terhadap distribusi asal (parent distribution) dalam disertasinya yang berjudul Maximum Likelihood Estimation of Distribution Parameters from Incomplete Data pada tahun 1962.
1.6. Metodologi Penelitian
Metode yang digunakan dalam penelitian ini adalah metode studi literatur dengan sumber utamanya adalah artikel “A Surprising Maximum Likelihood Estimation for Interval Censored Binomial Data” yang ditulis oleh Jesse Frey dan Osvaldo Marrero dan diterbitkan oleh The American Statistician pada tahun 2008.
6
Selain itu penulis juga mempelajari buku-buku dan jurnal-jurnal yang berkaitan dengan estimasi pada data tersensor interval. Adapun langkah-langkah yang dilakukan dalam penelitian ini adalah sebagai berikut: 1.
Melakukan estimasi parameter pada distribusi binomial tersensor interval dengan menggunakan metode Maximum Likelihood Estimation
2.
Mempelajari sifat-sifat yang dimiliki oleh estimator metode Maximum Likelihood Estimation pada distribusi binomial tersensor interval
3.
Mempelajari estimasi parameter data tersensor interval dari distribusi binomial dalam analisis survival
4.
Memberikan contoh penelitian yang memuat observasi tersensor interval yang selanjutnya akan digunakan sebagai studi kasus
5.
Melakukan estimasi fungsi survival pada data tersensor interval menggunakan metode Maximum Likelihood Estimation dengan bantuan program R versi 3.3.0
1.7
Sistematika Penulisan
Tesis ini disusun dengan sistematika penulisan sebagai berikut: BAB I PENDAHULUAN Bab pertama berisi tentang latar belakang masalah, rumusan masalah, tujuan penelitian, manfaat penelitian, tinjauan pustaka, metode penelitian serta sistematika penulisan. BAB II LANDASAN TEORI Bab kedua berisi beberapa definisi dan teorema yang menunjang pembahasan, di antaranya variabel random, distribusi binomial, estimasi parameter, metode Maximum Likelihood Estimation, data tersensor, dan fungsi survival.
7
BAB
III
ESTIMASI
PARAMETER
DISTRIBUSI
BINOMIAL
TERSENSOR INTERVAL MENGGUNAKAN METODE MAXIMUM LIKELIHOOD ESTIMATION Bab ketiga membahas tentang pokok permasalahan yaitu estimasi parameter binomial tersensor interval dengan menggunakan metode Maximum Likelihood Estimation, menjelaskan sifat estimator, dan membahas aplikasi data tersensor interval dari distribusi binomial dalam analisis survival. BAB IV STUDI KASUS Bab keempat memberikan deskripsi data pasien kanker payudara yang memuat observasi tersensor interval dan membahas estimasi fungsi survival dari kedua grup perlakuan dengan menggunakan program R 3.3.0. BAB V KESIMPULAN Bab kelima berisi kesimpulan yang diperoleh dari hasil penelitian dan saran bagi penelitian selanjutnya.