ANALISIS SURVIVAL DENGAN PENDEKATAN MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS) UNTUK DATA RESAMPLING
( Skripsi )
Oleh ERNI YULIA SARI
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS LAMPUNG BANDAR LAMPUNG 2016
ABSTRACT SURVIVAAL ANALYSIS WITH MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS) APPROACH FOR RESAMPLING DATA
By ERNI YULIA SARI
The lifetime of an object or an individual can be affected by one or more factors. To determine the rate failure of an individual at a time that is affected by one or more predictor variables it can be done with the Multivariate Adaptive Regression Spline (MARS) approach. This method have 3 ≤ k ≤ 20 predictor variables and the sample size 50 ≤ n ≤ 1000. Maximum Likelihood Estimation (MLE) can be used to estimate parameter of baseline hazard and Penalized Least Square (PLS) can be to used estimate coefficients of MARS model. In case study, MARS use to perform the analysis remission survival time on 42 patient leukimia. It cause n < 50 it is necessary to resampling to fulfill the assumptions on MARS. Resampling amount used is 50, 100, 500, 900, 1000. Keyword: Multivariate Adaptive Regression Spline (MARS), Maximum Likelihood Estimation (MLE), Penalized Least Square (PLS)
ABSTRAK ANALISIS SURVIVAL DENGAN PENDEKATAN MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS) UNTUK DATA RESAMPLING
Oleh ERNI YULIA SARI
Masa hidup suatu objek atau individu dapat dipengaruhi oleh satu atau lebih faktor. Untuk mengetahui laju kegagalan suatu individu pada suatu waktu yang dipengaruhi oleh satu atau lebih variabel prediktor maka dapat dilakukan dengan pendekatan Multivariate Adaptive Regression Spline (MARS). Metode ini memiliki variabel prediktor 3 ≤ 𝑘 ≤ 20 dan ukuran sampel 50 ≤ 𝑛 ≤ 1000. Pada penelitian untuk menduga fungsi baseline hazard digunakan metode maximum likelihood estimation (MLE) dan untuk menduga koefisien model MARS digunakan metode penalized least square (PLS). Pada studi kasus, MARS digunakan untuk menganalisis waktu sisa hidup pada 42 pasien leukimia. Karena 𝑛 < 50 perlu dilakukan resampling untuk memenuhi asumsi pada MARS. Jumlah resampling yang digunakan yaitu 50, 100, 500, 900, 1000. Kata kunci: Multivariate Adaptive Regression Spline (MARS), Maximum Likelihood Estimation (MLE), Penalized Least Square (PLS), Resampling.
ANALISIS SURVIVAL DENGAN PENDEKATAN MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS) UNTUK DATA RESAMPLING
Oleh ERNI YULIA SARI
Skripsi Sebagai salah satu syarat untuk mencapai gelar SARJANA SAINS Pada Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS LAMPUNG BANDAR LAMPUNG 2016
RIWAYAT HIDUP Penulis bernama lengkap Erni Yulia Sari , dilahirkan di Bandar Lampung tepatnya pada tanggal 2 Juli 1994. Merupakan anak pertama dari dua bersaudara, pasangan Bapak Edwar dan Ibu Marhayah.
Menempuh pendidikan awal Taman Kanak-kanak di TK Kartini pada tahun 2000, Sekolah Dasar (SD) di SD Negeri 1 Pelita pada tahun 2006, Sekolah Menengah Pertama (SMP) di SMP Negeri 19 Bandar Lampung pada tahun 2009, dan Sekolah Menengah Atas (SMA) di SMA Negeri 9 Bandar Lampung pada tahun 2012.
Pada tahun 2012 penulis terdaftar sebagai Mahasiswa Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Lampung, melalui jalur SNMPTN tulis serta mendapatkan beasiswa BIDIK MISI. Selama menjadi mahasiswa, penulis bergabung di Himpunan Mahasiswa Jurusan Matematika (HIMATIKA) yang diamanahkan pada tahun pertama dan kedua sebagai Anggota di Bidang Kaderisasi periode 2012-2014, pada tahun ketiga sebagai anggota Biro Dana dan Usaha HIMATIKA.
Pada bulan Januari 2015 melaksanakan Kerja Praktek (KP) di Balai Riset dan Standardisasi Industri Bandar Lampung guna mengaplikasikan serta menerapkan ilmu yang telah diperoleh dalam perkuliahan.
Selanjutnya bulan Juli-September 2015 melaksanakan Kuliah Kerja Nyata (KKN) di Desa Toto Makmur, Kecamatan Gunung Terang, Kabupaten Tulang Bawang Barat.
KATA INSPIRASI
Kesenangan dalam sebuah pekerjaan membuat kesempurnaan pada hasil yang dicapai (Aristoteles) Hargai usahamu, hargailah dirimu Harga diri mrmunculkan disiplin diri Ketika anda memilikikeduanya, itulah kekuatan sesungguhnya (Clint Eastwood) Satu-satunya sumber pengetahuan adalah pengalaman (Albert Einstein) Anda mungkin bisa menunda, tapi waktu tidak akan menunggu (Benjamin Franklin) Jangan pernah puas terhadap apa yang kita peroleh tetapi bersyukurlah terhadap apa yang kita peroleh (Erni Yulia Sari)
PERSEMBAHAN
Dengan mengucap Syukur Alhamdulillah atas Rahmat Allah SWT
Kupersembahkan karya sederhana ini kepada orang yang sangat kukasihi dan kusayangi Mama dan Ayah Sebagai tanda bakti, hormat, dan rasa terima kasih yang tiada terhingga kupersembahkan karya kecil ini kepada Mama dan Ayah yang telah memberikan kasih sayang, segala dukungan, dan do’a yang tiada henti untuk kesuksesan saya karena tiada kata seindah lantunan do’a dan tiada do’a yang paling khusuk selain do’a yang terucap dari orang tua Semoga ini menjadi langkah awal untuk membuat Mama dan Ayah bahagia, karena aku sadar selama ini belum dapat berbuat yang lebih.
SANWACANA
Alhamdulillah, Segala puji bagi Allah SWT, karena berkat rahmat, dan ridho-Nya skripsi yang berjudul “Analisis Survival dengan Pendekatan Mutivariate Adaptive Regression Spline (MARS) untuk Data Rsampling” dapat diselesaikan tepat pada waktunya. Dalam penyusunan skripsi ini, penulis menyadari bahwa banyak pihak yang telah berpartisipasi memberikan bimbingan dan saran - saran. Untuk itu, penulis ucapkan terimakasih yang sebesar-besarnya , terutama kepada:
1. Ibu Dian Kurniasari, S.Si., M.Si., selaku Dosen Pembimbing 1 yang telah meluangkan waktu untuk membimbing dan memberi saran kepada penulis dalam menyelesaikan skripsi ini. 2. Bapak Drs. Rudi Ruswandi, M.Si., selaku Dosen Pembimbing 2 yang telah memberikan banyak sekali saran dan arahan dengan penuh kesabaran guna menyelesaikan skripsi ini. 3. Bapak Warsono, Ph.D., selaku Dosen Penguji yang telah mengevaluasi, memberikan saran dan kritik yang membangun dalam penyelesaian skripsi ini. 4. Bapak Drs. Eri Setiawan, M.Si., selaku dosen pembimbing akademik yang telah membimbing penulis selama mengikuti perkuliahan di Jurusan Matematika FMIPA Universitas Lampung. 5. Bapak Drs. Tiryono Ruby, M.Sc.,Ph.D., selaku Ketua Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Lampung.
6. Bapak Prof. Warsito, S.Si., DEA., Ph.D., selaku Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas lampung. 7. Seluruh dosen, staf, dan karyawan Jurusan Matematika FMIPA Universitas Lampung yang telah memberikan banyak ilmu dan pengalaman. 8. Ayah dan Ibu tercinta yang selalu mendukung dan mendoakan, serta adikku Virgiwan Rivaldi yang selalu memberikan semangat. 9. Sahabat-sahabat tersayang Fakhrunisa, Agnes, Dwi, Elva, Putri, dan Mutia yang selalu membantu, memberikan tawa canda dan dukungan semangat dari awal perkuliahan hingga saat ini serta teman-teman seperjuangan, Ernia, Anggryani, Suyanti, Maya, Hana, Riyama, Rohimatul, Anisa, Desti, yang selalu menghibur, memberikan semangat, dan motivasi. 10. Teman-teman angkatan 2012, Keluarga HIMATIKA, Kelompok KKN Desa toto Makmur 2015 yang selalu menjadi penyemangat. 11. Seluruh pihak yang telah membantu penulis yang tidak dapat disebutkan satu persatu, atas peran dan dukungannya dalam menyusun skripsi ini.
Penulis berharap Allah SWT akan membalas kebaikan dan pengorbanan mereka. Semoga karya kecil ini dapat bermanfaat bagi kita semua.
Bandar Lampung,29 September 2016 Penulis,
Erni Yulia Sari
DAFTAR ISI
halaman DAFTAR TABEL .................................................................................... DAFTAR GAMBAR ................................................................................ I.
xv xvii
PENDAHULUAN 1.1. 1.2. 1.3. 1.4. II.
Latar Belakang dan Masalah ................................................... Rumusan Masalah ................................................................... Tujuan Penelitian ..................................................................... Manfaat Penelitian ...................................................................
1 3 3 3
TINJAUAN PUSTAKA 2.1
Analisis Survival ..................................................................... 2.1.1 Fungsi Kepekatan Peluang ............................................. 2.1.2 Fungsi Survival .............................................................. 2.1.3 Fungsi Hazard ................................................................ 2.1.4 Data Tersensor dan Data Tidak Tersensor ..................... 2.2 Distribusi Weibull ................................................................... 2.3 Metode Kemungkinan Maksimum .......................................... 2.4 Metode Iterasi Newton-Rhapson ............................................. 2.5 Multivariat ............................................................................... 2.6 Cox Proportional Hazard (Cox) Model .................................. 2.7 Residual Martingale ................................................................ 2.8 Multivariate Adaptive Regression Spline (MARS) ................. 2.8.1 Recursive Partion Regression (RPR) ............................ 2.8.2 Spline ............................................................................. 2.9 Metode Stepwise ..................................................................... 2.10 Metode Penalized Least Square ..............................................
4 5 6 7 8 10 12 13 14 16 17 18 19 21 24 25
III. METODOLOGI PENELITIAN 3.1 3.2 3.3
Waktu dan Tempat Penelitian ................................................. Metode Penelitian .................................................................... Studi Kasus ..............................................................................
26 26 27
IV. HASIL DAN PEMBAHASAN 4.1 4.2
Fungsi Baseline Hazard Distribusi Weibull .......................... Pendugaan Parameter Distribusi Weibull dengan Metode Kemungkinan Maksimum ....................................................... Metode Newton Raphson ........................................................ Model Multivariate Adaptive Regression Spline (MARS) dan Estimsi Koefisien Model MARS dengan Metode Penalized Least Square (PLS) ................................................................. Studi Kasus...............................................................................
28
KESIMPULAN ...............................................................................
56
4.3 4.4
4.5 V.
DAFTAR PUSTAKA LAMPIRAN
30 32
33 35
DAFTAR GAMBAR
halaman Gambar 4.1 Plot MARS Kadar Sel Darah Putih dengan n = 50 , d = 2 dan MI = 2 ........................................................................
42
Gambar 4.2 Plot MARS Kadar Sel Darah Putih dengan n = 100 , d = 2 dan MI = 2 ........................................................................
44
Gambar 4.3 Interaksi Antara Kadar Sel Darah Putih dan Jenis Treatment Penyembuhan dengan n = 100, d = 2, dan MI = 2 .............
45
Gambar 4.4 Plot MARS Kadar Sel Darah Putih dengan n = 500 , d = 2 dan MI = 2 ........................................................................
47
Gambar 4.5 Interaksi Antara Kadar Sel Darah Putih dan Jenis Treatment Penyembuhan dengan n = 500, d = 2, dan MI = 2 .............
48
Gambar 4.6 Plot MARS Kadar Sel Darah Putih dengan n = 900 , d = 2 dan MI = 2 ........................................................................
50
Gambar 4.7 Interaksi Antara Kadar Sel Darah Putih dan Jenis Treatment Penyembuhan dengan n = 900, d = 2, dan MI = 2.............
51
Gambar 4.8 Plot MARS Kadar Sel Darah Putih dengan n = 100 , d = 2 dan MI = 2 ........................................................................
54
Gambar 4.9 Interaksi Antara Kadar Sel Darah Putih dan Jenis Treatment Penyembuhan dengan n = 1000, d = 2, dan MI = 2...........
54
DAFTAR TABEL
halaman Tabel 4.1 Data Remission Survival Time on 42 Pasien Leukaemia ........
35
Tabel 4.2 Deskriptif Data Survival ..........................................................
37
Tabel 4.3 Deskriptif Pasien Leukimia ......................................................
37
Tabel 4.4 Hasil Pengujian Distribusi Anderson-Darling .........................
38
Tabel 4.5 Hasil Pengujian Signifikan Variabel Bebas untuk n = 30 ........
38
Tabel 4.6 Pengaruh Waktu Sisa Massa Hidup Terhadap Jenis Kelamin, Kadar Sel Darah Putih, dan Jenis Treatment Penyembuhan Pasien Leukimia untuk n = 30....................................................
39
Tabel 4.7 Hasil Pengujian Signifikan Variabel Bebas untuk n = 50 ........
40
Tabel 4.8 Pengaruh Waktu Sisa Massa Hidup Terhadap Jenis Kelamin, Kadar Sel Darah Putih, dan Jenis Treatment Penyembuhan Pasien Leukimia untuk n = 50....................................................
41
Tabel 4.9 Tingkat Kepentingan Variabel untuk n = 50 ............................
42
Tabel 4.10 Hasil Pengujian Signifikan Variabel Bebas untuk n = 100 ......
43
Tabel 4.11 Pengaruh Waktu Sisa Massa Hidup Terhadap Jenis Kelamin, Kadar Sel Darah Putih, dan Jenis Treatment Penyembuhan Pasien Leukimia untuk n = 100..................................................
43
Tabel 4.12 Tingkat Kepentingan Variabel untuk n = 100 ..........................
45
Tabel 4.13 Hasil Pengujian Signifikan Variabel Bebas untuk n = 500 ......
46
Tabel 4.14 Pengaruh Waktu Sisa Massa Hidup Terhadap Jenis Kelamin, Kadar Sel Darah Putih, dan Jenis Treatment Penyembuhan Pasien Leukimia untuk n = 500..................................................
46
Tabel 4.15 Tingkat Kepentingan Variabel untuk n = 500 ..........................
48
Tabel 4.16 Hasil Pengujian Signifikan Variabel Bebas untuk n = 900 ......
49
Tabel 4.17 Pengaruh Waktu Sisa Massa Hidup Terhadap Jenis Kelamin, Kadar Sel Darah Putih, dan Jenis Treatment Penyembuhan Pasien Leukimia untuk n = 900..................................................
49
Tabel 4.18 Tingkat Kepentingan Variabel untuk n = 900 ..........................
51
Tabel 4.19 Hasil Pengujian Signifikan Variabel Bebas untuk n = 1000 ....
52
Tabel 4.20 Pengaruh Waktu Sisa Massa Hidup Terhadap Jenis Kelamin, Kadar Sel Darah Putih, dan Jenis Treatment Penyembuhan Pasien Leukimia untuk n = 1000................................................
53
Tabel 4.21 Tingkat Kepentingan Variabel untuk n = 1000 ........................
55
I.
PENDAHULUAN
1.1 Latar Belakang dan Masalah
Masa hidup merupakan interval waktu yang diamati dari suatu objek atau individu dari saat pertama kali masuk ke dalam pengamatan hingga mengalami kegagalan. Masa hidup merupakan random variabel yang mengikuti sebaran distribusi tertentu. Dari beberapa distribusi yang dapat menggambarkan masa hidup, distribusi weibull merupakan salah satu distribusi yang umum digunakan dalam menyelesaikan persoalan yang berhubungan dengan massa hidup suatu individu.
Analisis yang digunakan untuk menganalisis masa hidup adalah analisis survival. Analisis survival adalah suatu metode yang berhubungan dengan waktu, mulai dari time origin atau start point sampai dengan terjadinya suatu kejadian khusus atau end point. Pada analisis survival, jenis data waktu hidup dapat dibagi menjadi dua yaitu data tidak tersensor (data lengkap) dan data tersensor (data tidak lengkap). Data tidak tersensor adalah data yang diambil jika semua obyek penelitian mengalami kejadian yang dimaksudkan dalam penelitian sedangkan data tersensor adalah data yang tidak bisa diamati secara keseluruhan karena terdapat data massa hidup yang tidak diketahui secara pasti. Dalam analisis survival terdapat dua fungsi yang dapat digunakan, yaitu fungsi survival dan fungsi hazard. Fungsi hazard merupakan peluang suatu individu mencapai kejadian khusus pada waktu 𝑡, dengan
2
diketahui bahwa individu tersebut masih bertahan sampai waktu tersebut. Kejadian khusus yang dimaksud merupakan waktu bertahan hidup atau waktu sisa hidup pasien dalam suatu penyakit, contohnya penyakit leukimia.
Massa hidup individu dapat dipengaruhi oleh beberapa faktor. Jika data massa hidup dipengaruhi lebih dari dua faktor dan diukur secara bersamaan maka data yang digunakan adalah data multivariat. Metode statstik yang digunakan untuk mengetahui hubungan dua atau lebih variabel yaitu analisis regresi. Pada analisis regresi jenis data yang digunakan ada dua yaitu data numerik dan kategorik. Jika penggunakan data kategorik maka analisis yang digunakan yaitu analisis regresi nonparametrik. Bentuk model regresi nonparametrik sebagai berikut : 𝒚 = 𝒇(𝒙) + 𝜺 Untuk mengetahui laju kegagalan (hazard rate) individu pada suatu waktu yang dipengaruhi oleh satu atau lebih variabel prediktor maka dapat digunakan pendekatan metode
Multivariate Adaptive Regression Splines (MARS).
Multivariate Adaptive Regression Splines merupakan salah satu metode regresi nonparametrik dengan pendekatan multivariat yang mempertimbangangkan covariate dari variabel prediktor yang dikembangkan oleh Friedman (1991).
Kelebihan dari metode MARS adalah memiliki sifat yang fleksibel pada data yang berdimensi tinggi, memiliki variabel prediktor 3 < k < 20, dan ukuran sampel 50 < n < 1000. Selain itu, pemodelan MARS dapat melibatkan banyak interaksi antar variabel prediktor dan mampu mendeteksi interaksi tersebut (Kriner, 2007). Jika data yang ada berukuran kecil atau < 50 maka data tersebut dapat diresampling untuk memenuhi asumsi yang ada pada metode MARS.
3
1.2 Rumusan Masalah
Berdasarkan latar belakang yang telah diuraikan sebelumnya maka dapat ditentukan rumusan permasalahan dalam penelitian ini yaitu : 1. Bagaimana model analisis survival dengan pendekatan multivariate adaptive regression spline (MARS) untuk data resampling ? 2. Bagaimana
estimasi
model
analisis
survival
dengan
pendekatan
multivariate adaptive regression spline (MARS) untuk data resampling.
1.3 Tujuan Penelitian
Adapun tujuan yang ingin dicapai dalam penelitian ini yaitu : 1. Menentukanmodel analisis survival dengan pendekatan multivariate adaptive regression spline (MARS) untuk data resampling ? 2. Menentukan estimasi model analisis survival dengan pendekatan multivariate adaptive regression spline (MARS) untuk data resampling. 3. Menerapkan model analisis survival dengan pendekatan multivariate adaptive regression spline (MARS) untuk data resampling pada data remission survival time pada pasien leukimia.
1.4 Manfaat Penelitian
Adapun manfaat dari penelitian ini adalah memberikan sumbangan mengenai hazard rate berdistribusi Weibull dengan pendekatan Multivariate Adaptive Regression Spline (MARS).
II.
TINJAUAN PUSTAKA
Teori-teori yang digunakan untuk mendukung dalam penelitian ini adalah sebagai berikut :
2.1 Analisis Survival
Massa hidup merupakan interval waktu yang diamati dari suatu objek atau individu pada saat pertama kali masuk kedalam pengamatan hingga terjadinya kegagalan. Analisis yang digunakan untuk menganalisis massa hidup adalah analisis survival. Analisis survival merupakan suatu metode statistik yang berkaitan dengan waktu, yaitu dimulai dari time origin atau start point sampai pada suatu kejadian khusus (failure event/end point) (Collect, 2003). Dalam menentukan waktu survival T, terdapat tiga elemen yang perlu diperhatikan yaitu : a. Time origin or starting point (titik awal) adalah waktu dimulainya suatu penelitian. b.
Ending event of interest (kejadian akhir) adalah kejadian yang menjadi inti dari penelitian.
c. Measurement scale for the passage of time (skala pengukuran waktu yang jelas). Skala diukur dalam hari, minggu atau tahun.
Adapun tujuan melakukan anaisis survival adalah : 1. Mengestimasi/memperkirakan dan menginterpretasikan fungsi survival atau
5
hazard dari data survival. 2. Membandingkan fungsi survival dan fungsi hazard pada dua atau lebih kelompok. 3. Menilai hubungan variabel-variabel explanatory dengan survival waktu ketahanan.
Massa hidup dalam analisis survival mengikuti distribusi peluang tertentu. Fungsi distribusi tersebut dapat dijelaskan dalam tiga fungsi yaitu fungsi kepekatan peluang, fungsi survival, fungsi, dan hazard.
2.1.1 Fungsi Kepekatan Peluang
Fungsi kepadatan peluang merupakan peluang suatu individu mengalami event, gagal atau mati dalam interval waktu t sampai ( 𝑡 + ∆𝑡 ) yang dinotasikan dengan (𝑓(𝑡)). Fungsi ini dirumuskan sebagai berikut: 𝑓(𝑡) = 𝑙𝑖𝑚 [
𝑃(𝑜𝑏𝑗𝑒𝑘 𝑔𝑎𝑔𝑎𝑙 𝑝𝑎𝑑𝑎 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙 (𝑡,𝑡+∆𝑡)) ∆𝑡
∆𝑡→0
𝑓(𝑡) = 𝑙𝑖𝑚 [ ∆𝑡→0
𝑃(𝑡<𝑇<𝑡+∆𝑡) ∆𝑡
]
]
(2.1)
(Collettt, D., 2003) T merupakan variabel random non negatif dalam interval [0, ∞ ). Fungsi kepekatan peluang mempunyai sifat dasar sebagai berikut : a. 𝑓(𝑡) ≥ 0, 𝑡 ≥ 0 ∞
b. ∫0 𝑓(𝑡)𝑑𝑡 = 1 Fungsi 𝑓 disebut fungsi peluang bagi variabel random kontinu T bila luas daerah di bawah kurva dan di atas sumbu-t sama dengan 1, dan bila luas
6
daerah di bawah kurva antara 𝑡 = 𝑎 dan 𝑡 = 𝑏 menyatakan peluang T terletak antara 𝑎 dan 𝑏. Dengan demikian luas daerah yang diarsir adalah : 𝑏
𝑃(𝑎 < 𝑇 < 𝑏) = ∫𝑎 𝑓(𝑡)𝑑𝑡 dengan 𝑎, 𝑏 𝜖 [0, ∞).
𝐹(𝑡) merupakan fungsi distribusi kumulatif (cdf) dari 𝑇 . Fungsi ini didefinisikan sebagai peluang suatu individu mengalami event sampai dengan waktu t yang dapat dituliskan sebagai berikut: 𝐹(𝑡) = 𝑃(𝑇 ≤ 𝑡) 𝑡
= ∫0 𝑓(𝑡) 𝑑𝑡
(2.2)
2.1.2 Fungsi Survival
Massa hidup individu merupakan selang waktu yang diamati dari suatu objek saat pertama kali masuk ke dalam pengamatan sampai dengan objek tersebut tidak berfungsi atau mati. Misalnya selang waktu yang mengukur kerusakan suatu produk, matinya suatu makhluk hidup, atau kambuhnya suatu penyakit.
Menurut Kleinbaum dan Klein (2005) fungsi survival menyatakan peluang yang tidak mengalami kegagalan sampai batas waktu t. Jika T melambangkan waktu survival lebih besar dari t, maka persamaannya adalah : 𝑆(𝑡)
= P (Objek hidup lebih dari waktu t) = 𝑃(𝑇 > 𝑡) = 1 − 𝑃(𝑇 < 𝑡)
7
= 1 − 𝐹(𝑡)
(2.3)
2.1.3 Fungsi Hazard
Menurut Kleinbaum dan Klein (2005) fungsi hazard atau fungsi kegagalan dari waktu tahan hidup T dinotasikan h(t) adalah probabilitas suatu individu mencapai kejadian khusus pada waktu t, dengan syarat ia telah bertahan sampai waktu tersebut. Fungsi hazard didefinisikan sebagai berikut : h(t) =
𝑝𝑒𝑙𝑢𝑎𝑛𝑔𝑘𝑒𝑔𝑎𝑔𝑎𝑙𝑎𝑛(𝑡,𝑡+∆𝑡) 𝑝𝑒𝑙𝑢𝑎𝑛𝑔𝑘𝑒𝑔𝑎𝑔𝑎𝑙𝑎𝑛(𝑡,∞) 𝑃(𝑡≤𝑇<𝑡+∆𝑡│𝑇≥𝑡)
= lim
∆𝑡
∆𝑡→0
𝑃(𝑡≤𝑇<𝑡+∆𝑡,𝑇≥𝑡)
= lim
∆𝑡.𝑃(𝑇≥𝑡)
∆𝑡→0
= lim
𝑃(𝑡≤𝑇<𝑡+∆𝑡)
∆𝑡→0
∆𝑡.𝑆(𝑡)
𝐹(𝑡+∆𝑡)−𝐹(𝑡)
= lim
∆𝑡.𝑆(𝑡)
∆𝑡→0 1
= 𝑆(𝑡) lim
∆𝑡→0
=
𝐹(𝑡+∆𝑡)−𝐹(𝑡) ∆𝑡
𝐹′ (𝑡) 𝑆(𝑡) 𝑓(𝑡)
= 𝑆(𝑡)
(2.4)
Perbedaan antara analisis survival dengan analisis statistik lainnya adalah pada jenis datanya. Pada analisis survival jenis data massa hidup dapat dibagi menjadi dua yaitu data tersensor dan data tidak tersensor atau data lengkap.
8
2.1.4 Data Tersensor dan Data Tidak Tersensor
Dalam analisis survival, terdapat kesulitan dalam pengamatan data yaitu adanya kemungkinan pengamatan beberapa produk yang tidak dapat di observasi berawal dari start point hingga end point. Keadaan tersebut dikatakan data tersensor (Kleinbaum dan Klein, 2005).
Sensor dilakukan untuk memperpendek suatu percobaan karena untuk mengukur waktu kegagalan atau kematian objek memerlukan waktu yang lama dan biaya yang tidak sedikit. Dalam uji ketahanan terdapat jenis-jenis sensor, yaitu : 1.
Sensor kanan Data survival dikatakan tersensor kanan jika : (1) subyek yang diamati tetap bertahan hidup pada saat waktu T yang telah ditentukan atau belum mengalami suatu event sampai masa penelitian berakhir, (2) subyek yang diamati keluar pada saat penelitian berlangsung, (3) subyek yang diamati meninggal paa saat penelitian karena penyebab lain.
2. Sensor Kiri Data survival dikatan tersensor kiri jika subyek yang diamati tidak diamati pada awalwaktu pengamatan akan tetapi sebelum penelitian berakhir semua event sudah diamati secara penuh atau dengan kata lain subyek yang dialami mengalami event sebelum penelitian berlangsung.
9
3.
Terpancung Data dikatakan terpancung jika individu/ sistem mengalami kematian/ kerusakan dikarenakan sebab lain di luar dari tujuan utama penelitian. Sehingga tidak teramati tujuan utama penelitiannya.
Menurut Kleinbaum dan Klein (2005) penyensoran data dapat disebabkan oleh beberapa hal, antara lain : a.
Subyek pengamatan yang diamati tidak mengalami suatu event sampai penelitian berakhir (loss to follow-up).
b.
Subyek pengamatan hilang selama penelitian.
c.
Subyek pengamatan ditarik dari penelitian karena meninggal dimana meninggal merupakan suatu peristiwa yang tidak diperhatikan oleh peneliti atau alasan yang lain.
Percobaan juga dapat dilakukan tanpa menggunakan ketiga tipe penyensoran tersebut yaitu dengan sampel lengkap. Sampel lengkap berarti bahwa nilai kegagalan dari semua unit sampel yang diobservasi dapat diketahui. Percobaan akan berhenti jika semua sampel yang diamati mengalami kegagalan.
Umumnya data massa hidup dalam analisis survival mengikuti distribusi peluang tertentu. Dari beberapa distribusi yang dapat menggambarkan data massa hidup, distribusi weibull merupakan salah satu distribusi yang digunakan dalam menyelesaikan persoalan yang berhubungan dengan massa hidup suatu individu.
10
2.2 Distribusi Weibull
Distribusi Weibull diperkenalkan oleh seorang matematikawan bernama Wallodi Weibull. Menurut Evan, dkk (2011) distribusi Weibull umumnya digunakan sebagai distribusi waktu hidup dalam aplikasi ketahanan hidup . Distribusi Weibull memiliki 2 parameter yang dapat mewakili menurun, konstan atau meningkatnya dari laju kegagalan. Dua parameter Weibull yaitu : α
= Parameter bentuk (shape) yaitu menggambarkan tingkat kegagalan pada
distribusi Weibull. τ
= Parameter skala (scale) yaitu menggambarkan bentuk keragaman data pada
distribusi Weibull.
Jika t merupakan peubah acak menyebar menurut distribusi Weibull dengan 2 parameter, maka fungsi densitas dapat diuraikan dalam bentuk sebagai berikut : f(t)
𝛼
𝑡 𝛼−1
= ( 𝜏 ) (𝜏)
𝑡 𝛼
𝑒𝑥𝑝 [− (𝜏) ]
;t>0,α>0,τ>0
(Evan, dkk, 2011)
Rata-rata (mean) dan ragam (Variance) distribusi Weibull a. Rata-rata [E(t)] E(t)
∞
= ∫0 𝑡 𝑓(𝑡)𝑑𝑡 ∞
𝛼
𝑡 𝛼−1
= ∫0 𝑡 ( 𝜏 ) (𝜏) 𝑡 𝛼
Misal : x = (𝜏) → 𝛼 𝑡 𝛼−1
dx = 𝜏 (𝜏) Jika
𝑡 𝛼
𝑒𝑥𝑝 [− (𝜏) ] 𝑑𝑡
1
t = 𝑥𝛼 𝜏 𝑑𝑡
t=0→x=0 ;
t=∞ →x=∞
(2.5)
11
Sehingga : 1
𝑡
= ∫0 𝑥 𝛼 𝜏 𝑒𝑥𝑝[−𝑥] 𝑑𝑥
E(t)
1
𝑡
= 𝜏 ∫0 𝑥 (1+𝛼)−1 𝑒𝑥𝑝[−𝑥] 𝑑𝑥 1
= 𝜏 𝛤 (1 + 𝛼)
(2.6) 2
Sehingga nilai rata-rata (mean) pada distribusi Weibull yaitu : 𝜏 2 𝛤 (1 + 𝛼) b. Ragam [Var(t)] ∞
E(t 2 )
= ∫0 t 2 𝑓(𝑡)𝑑𝑡 ∞
𝑡 𝛼−1
𝛼
= ∫0 t 2 ( 𝜏 ) (𝜏) 𝑡 𝛼
1
Misal : x = (𝜏) → 𝛼 𝑡 𝛼−1
dx = 𝜏 (𝜏) Jika
𝑡 𝛼
𝑒𝑥𝑝 [− (𝜏) ] 𝑑𝑡
t = 𝑥𝛼 𝜏 𝑑𝑡
t=0→x=0 ;
t=∞ →x=∞
Sehingga : E(t 2 )
2
1
𝑡
= ∫0 (𝑥 𝛼 𝜏 ) 𝑒𝑥𝑝[−𝑥] 𝑑𝑥 𝑡
2
= 𝜏 2 ∫0 𝑥 (𝛼) 𝑒𝑥𝑝[−𝑥] 𝑑𝑥 𝑡
2
= 𝜏 2 ∫0 𝑥 (1+𝛼)−1 𝑒𝑥𝑝[−𝑥] 𝑑𝑥 2
= 𝜏 2 𝛤 (1 + 𝛼) Var (t)
= E(𝑡 2 ) − [𝐸(𝑡)]2 2
1
= 𝜏 2 𝛤 (1 + 𝛼) − [𝜏 𝛤 (1 + 𝛼)] 2
1
2
1
= 𝜏 2 𝛤 (1 + 𝛼) − 𝜏 2 𝛤 (1 + 𝛼) 𝛤 (1 + 𝛼)
12
2
1
1
= 𝜏 2 {𝛤 (1 + 𝛼) − [𝛤 (1 + 𝛼) 𝛤 (1 + 𝛼)]} 2
1
= 𝜏 2 {𝛤 (1 + 𝛼) − 𝛤 2 (1 + 𝛼)}
(2.7)
Sehingga nilai ragam (varian) pada distribusi Weibull yaitu : 2
1
𝜏 2 {𝛤 (1 + 𝛼) − 𝛤 2 (1 + 𝛼)} Parameter-parameter pada distribusi weibull dapat diestimasi dengan berbgai macam metode. Salah satu metode yang sering digunakan untuk mencari nilai estimasi dari suatu parameter yaitu metode kemungkinan maksimum. Metode kemungkinan maksimum dapat digunakan jika fungsi densitasnya diketahui.
2.3 Metode Kemungkinan Maksimum ( Method of Maximum Likelihood)
Metode maksimum Likelihood adalah salah satu metode yang paling sering digunakan untuk mencari nilai estimasi dari suatu parameter. Fungsi densitas bersama dari variabel random X1, X2, … , Xn yang bernilai x1, x2, … , xn adalah L(θ) = f(x1, x2, ... , xn; θ) yang merupakan fungsi likelihood. Fungsi likelihood merupakan fungsi dari θ dan dilambangkan dengan L(θ). Jika x 1, x2, … , xn adalah sampel random yang saling bebas stokastik independen (iid) dari f(x; θ) ; θ∈Ω, maka : L(θ)
= f(xi; θ) = f(x1, x2, … , xn; θ) = f(x1; θ).f(x2; θ). … . f(xn; θ) = ∏𝑛𝑖=1 𝑓(𝑥𝑖 ; θ)
(2.8)
13
Untuk hasil pengamatan x1, x2, ... , xn nilai θ̂ berada dalam Ω(θ̂ ∈Ω), dimana L(θ)maksimum yang disebut sebagai Maximum Likelihood Estimation (MLE.) dari θ. Jadi, θ̂ merupakan nilai duga dari θ. Jika f(x1, x2, ... , xn) = max f(x1, x2, ... , xn; θ); θ ∈ Ω, maka untuk memperoleh nilai θ̂ tersebut yang memaksimumkan L(θ) harus di derivatifkan yaitu : 𝜕 ∂θ
L(θ) = 0
(Hoog and Craig, 1995)
Apabila hasil yang diperoleh dari metode kemungkinan maksimum berbentuk non linear atau masih mengandung parameter maka dibutuhkan metode iteratif untuk menyelesaikannya. Salah satu metode iteratif untuk menyelesaikan masalah ini adalah metode iterasi newton raphson.
2.4 Metode Iterasi Newton Raphson
Apabila dalam proses estimasi parameter yang diperoleh merupakan persamaan akhir yang non linear maka tidak mudah untuk memperoleh estimasi parameter tersebut, sehingga diperlukan suatu metode numerik untuk menyelesaikan persamaan non linear ersebut. Salah satu metode yang sering digunakan untuk menyelesaikan sistem non linear adalah metode Newton Rhapson. Metode Newton Rhapson merupakan metode untuk menyelesaikan persamaan non linear secara iteratif.
14
Adapun langkah-langkah metode iterasi Newton Rhapson adalah sebagai berikut : 1. Ambil estimasi dari θ, misal θ0. 𝐺( 𝜃0 )
2. 𝜃̂1 = 𝜃 0 −
, 𝐺( 𝜃 0 ) merupakan turunan pertama dari f(θ) pada 𝜃 =
𝐻( 𝜃0 )
𝜃̂ 𝑡 . 3. 𝜃̂1+1 = 𝜃 𝑡 −
𝐺( 𝜃𝑡 ) 𝐻( 𝜃𝑡 )
, 𝐻( 𝜃 𝑡 ) dan 𝐺( 𝜃 0 ) = 𝐺 𝑡 , maka 𝜃̂1+1 = 𝜃 𝑡 −
(𝐻 𝑡 )−1 𝐺 𝑡 4. Estimator 𝜃̂ 𝑡 diiteratif terus sampai diperoleh jarak antara 𝜃̂1+1 dengan 𝜃̂ 𝑡 nilainya sangat kecil atau 𝜃̂ 1+1 − 𝜃̂ 𝑡 ≈ 𝜀 Metode ini dapat diperluas untuk menyelesaikan system persamaan dengan lebih dari satu parameter. Misal θ1, θ2, …, θp maka iterasinya sebagai berikut : 𝜃̂1+1 = 𝜃 𝑡 − (𝐻 𝑡 )−1 𝐺 𝑡
(2.10)
Dimana 𝜃̂1+1 dan 𝜃 𝑡 dalam bentuk vector yaitu : 𝜃̂1+1
𝜃̂1𝑡+1 𝜃̂1𝑡 = [ ⋮ ] dan 𝜃̂ 𝑡 = [ ⋮ ] 𝜃̂𝑝𝑡+1 𝜃̂𝑝𝑡
𝜕2 𝐹(𝜃)
𝜕𝜃12
𝜕𝜃1 𝜕𝜃2
⋮
⋮
𝐻=
𝜕2 𝐹(𝜃)
𝜕2 𝐹(𝜃)
𝜕𝜃𝑝2
𝜕𝜃𝑝 𝜕𝜃2
[
𝜕2 𝐹(𝜃)
…
𝜕 2 𝐹(𝜃)
𝜕𝐹(𝜃)
𝜕𝜃1 𝜕𝜃𝑝
𝜕𝜃1
…
⋮
dan 𝐺 =
⋮
𝜕 2 𝐹(𝜃) 𝜕𝜃𝑝2
𝜕𝐹(𝜃)
]
[
𝜕𝜃𝑝
]
(Casella dan Berger, 1990)
2.5 Multivariat
Data massa hidup individu dapat dipengaruhi oleh beberapa faktor. Jika data massa hidup dipengaruhi lebih dua faktor dan diukur secara bersamaan maka data yang digunakan adalah data multivariat. Analisis multivariat merupakan
15
pengembangan lanjutan dari analisis univariat maupun bivariat. Menurut Rencher (2002), analisis multivariat berasal dari kata multi dan variate, yang artinya analisis lebih dari dua variabel. Dengan demikian, analisis multivariat merupakan metode statistik yang memungkinkan melakukan penelitian terhadap lebih dari dua variable secara bersamaan. Dengan menggunakan teknik analisis ini maka kita dapat menganalisis pengaruh beberapa variable terhadap variabel lainnya dalam waktu yang bersamaan. Analisis multivariat digunakan karena pada kenyataannya
masalah
yang
terjadi
tidak
dapat
diselesaikan
dengan
menghubungkan dua variabel atau melihat pengaruh satu variabel terhadap variabel lainnya.
Data massa hidup yang dipengaruhi oleh faktor-faktor dapat menimbulkan hubungan sebab akibat. Metode satistika yang digunakan untuk mengetahui hubungan antara variabel bebas dan variabel tak bebas adalah analis regresi. Menurut Sudjana (2005) analisis regresi adalah hubungan yang didapat dan dinyatakan dalam bantuk persamaan matematik yang menyatakan hubungan fungsional antar variabel – variabel. Tujuan utama regresi adalah untuk membuat perkiraan nilai suatu variabel (variabel tak bebas) jika nilai variabel yang lain yang berhubungan dengannya (variabel bebas) sudah ditentukan. Analisis regresi untuk data massa hidup adalah regresi cox atau model Cox Proportional Hazard (Cox PH).
16
2.6 Cox Proportional Hazard (Cox PH) Model
Model cox proportional hazard (Cox PH) atau model regresi cox diperkenalkan oleh D.R. Cox pada tahun 1972 dan pertama kali diterapkan pada data survival. Pada model tersebut variabel peyerta dimasukkan dalam model sebagai variabel bebas dan waktu survival sebagai variabel tak bebas. Dengan menerapkan model regresi Cox, maka akan diketahui bentuk hubungan antar variabel bebas dan variabel tak bebas. Model Cox proportional hazard (Cox PH) adalah pemodelan matematika yang sangat popular yang digunakan untuk menganalisis data survival (Kleinbaum dan Klein, 2005). Menurut Nisa’ dan Budiantara (2012), pemodelan data survival tersebut merupakan pemodelan metode semi parametrik yang digunakan untuk mengestimasi efek covariate pada data survival. Pemodelan regresi untuk mengetahui faktor-faktor yang mempengaruhi data survival untuk data tidak tersensor yang disebut Regresi Cox (Cox PH Model). Model Cox PH dapat ditulis sebagai berikut : 𝑘
h(t,X) = ℎ0 (t)𝑒 ∑𝑖=1 𝛽𝑖 𝑋𝑖
(2.11)
dimana : ℎ0 (t)
= Baseline hazard
𝛽
= Koefisien regresi (𝛽1, 𝛽2, … , 𝛽𝑘 )
X
= Variabel Prediktor (𝑋1 , 𝑋2 , … , 𝑋𝑘 )
Model Cox PH menghasilkan beberapa jenis residual yaitu Cox-Snell residual, martingale residual, dan deviance residual. Martingale residual menyediakan ukuran perbedaan jumlah observasi yang mati dalam interval (0,t) dan jumlah prediksi dalam model (Collet, 2003).
17
2.7 Residual Martingale
Residual merupakan suatu alat diagnostik yang digunakan untuk menilai suatu ketepatan model dan berfokus pada masing masing variabel secara grafikal. Penggunaan residual dalam analisis data survival digunakan untuk menilai hal-hal sebagai berikut : 1. Bentuk fungsional untuk mengetahui pengaruh dari variabel prediktor pada suatu model. 2. Ketepatan suatu model dengan memperhitungkan asumsi-asumsi pada pemodelan proportional hazard. 3. Ketepatan suatu model dengan memperhitungkan signifikansi dari masingmasing variabel. 4. Pengaruh yang diberikan untuk suatu variabel dalam estimasi parameter.
Model Cox PH pada persamaan dapat menghasilkan berbagai macam jenis residual, salah satunya adalah residual martingale. Martingale residual menyediakan ukuran perbedaan jumlah observasi yang mati dalam interval (0,t) dan jumlah prediksi dalam model (Collet, 2003).Persamaan residual martingale dapat dijelaskan sebagai berikut : 𝑀𝑖 (𝑡) = 𝑁𝑖 (𝑡) − 𝐻𝑖 (𝑡) Dengan : 𝑀𝑖 (𝑡) = Residual martingale ke-I pada waktu ke-t 𝑁𝑖 (𝑡) = 1 , Untuk data tidak tersensor. 0 , untuk data tersensor. 𝐻𝑖 (𝑡) = Fungsi hazard kumulatif
(2.12)
18
Nilai residual martingale adalah antara −∞ hingga 1. Nilai tersebut negatif pada data tersensor. Residual martingale dapat menjadi gambaran mengenai perbedaan hasil pengamatan 𝑁𝑖 (𝑡) dengan angka prediksi pada kejadian kejadian 𝐻𝑖 (𝑡) . Ketika perbedaan antara hasil pengamatan dengan angka prediksi untuk subjek ke-i cukup besar, itu menunjukkan bahwa subjek ke-i tidak sesuai dengan model dan mengakibatkan suatu nilai besar pada 𝑀𝑖 (𝑡). Karena range dari 𝐻𝑖 (𝑡) adalah (0,∞) dan 𝑁𝑖 (𝑡) hanya bernilai 0 atau 1, maka dapat diambil kesimpulan bahwa residual martingale bernilai ( −∞, 1 ) dan kesimetrisan dari distribusi residual martingale mendekati 0. Dalam penelitian ini martingale residual digunakan sebagai variabel respon pada metode Multivariate Adaptive Regression Spine (MARS).
2.8 Multivariate Adaptive Regression Spline (MARS)
Multivariate Adaptive Regression Splines (MARS) merupakan metode regresi multivariat nonparametrik. Menurut Eubank (1998), regresi nonparametrik merupakan pendekatan metode regresi dimana bentuk kurva dari fungsi regresinya tidak diketahui. bentuk model regresi nonparametrik adalah sebagai berikut: 𝒚𝒊 = 𝒇(𝒙𝒊 ) + 𝜺
(2.13)
dengan 𝒚𝒊 adalah variabel terikat sedangkan fungsi 𝒇 merupakan kurva regresi yang tidak diketahui bentuknya, dan 𝒙𝒊 adalah variabel bebas, serta diasumsikan 𝜺 berdistribusi 𝑁(0, 𝜎 2 ) . Pendekatan regresi nonparametrik memiliki fleksibilitas yang tinggi, karena data yang diharapkan mencari sendiri bentuk estimasi kurva regresinya tanpa dipengaruhi oleh faktor subyektifitas peneliti.
19
Multivariate Adaptive Regression Splines (MARS) merupakan pendekatan untuk regresi multivariat nonparametrik yang menghasilkan pemodelan regresi yang fleksibel. Metode ini diperkenalkan oleh Jerome H. Friedman pada tahun 1990. Model MARS difokuskan untuk mengatasi permasalahan berdimensi tinggi, memiliki variable prediktor 3 < k < 20 , ukuran sampel 50 < N < 1000. MARS mampu mengatasi diskontinuitas pada data. MARS merupakan pengembangan dari pendekatan Recursive Partition Regression (RPR) yang dikombinasikan dengan metode spline sehingga model yang dihasilkan kontinu pada knot (Friedman, 1991).
2.8.1 Recursive Partition Regression (RPR) Misal Y adalah variabel tak bebas tunggal yang dipengaruhi oleh variabel bebas 𝑋 sebanyak p, dimana 𝑋 = (𝑋1 , 𝑋2 , … , 𝑋𝑝 ) maka Y dapat dinyatakan dalam model regresi sebagai berikut : 𝑌 = 𝑓(𝑋1 , 𝑋2 , … , 𝑋𝑝 ) + 𝜀
(2.14)
Dengan domain D merupakan subset dari ruang berdimensi p. Sisaan diasumsikan memiliki rataan nol dan ragam 𝜎 2 . Dari persamaan (2.14), misalkan terdapat sampel sebanyak N untuk Y dan 𝑋 = (𝑋1 , 𝑋2 , … , 𝑋𝑝 ) dinyatakan sebagai 𝑁 𝑠 {𝑦1 , 𝑥1𝑖 , … , 𝑋𝑝𝑖 } 𝑖=1 . Ambil {𝑅𝑗 } 𝑗=1 yang merupakan subset yang saling lepas dari 𝑠 domain D, sehingga 𝐷 =∪𝑗=1 𝑅𝑗 . RPR menduga fungsi 𝑓(𝑥) yang tidak diketahui
dengan 𝑓̂(𝑥) = ∑𝑠𝑗=1 𝐶𝑗 (𝑥)𝐵𝑗 (𝑥)
(2.15)
20
Dengan 𝐵𝑗 (𝑥) = 𝐼⌊𝑥 ∈ 𝑅𝑗 ⌋. I adalah fungsi indikator yang bernilai 1 jika benar dan bernilai 0 jika salah. dan 𝐶𝑗 (𝑥) adalah koefisien subregion. Setiap fungsi indikator merupakan perkalian dari fungsi univariat yang menggambarkan setiap subregion j di R .
Secara umum, RPR mempunyai dua tahap yaitu tahap forward dan backward. Dimulai dari subregion pertama 𝑅1 = 𝐷, tahap forward memilah domain D secara 𝑀 iteratif menjadi himpunan bagian (subregion) yang saling lepas {𝑅𝑗 } 𝑗=2 , untuk
𝑀 ≥ 𝑆. Dengan M ditentukan sebarang. Selanjutnya, tahap backward berlawanan dengan tahap forward yaitu menghilangkan atau memangkas subregion dari model dengan dua kriteria yaitu evaluasi dugaan model dan jumlah subregion dalam model.
Tahap forward dan backward ini menghasilkan sekumpulan subregion yang tidak saling tumpang tindih, sehingga 𝑓̂(𝑥) mendekati 𝑓(𝑥) untuk setiap subregion daerah asal. RPR merupakan metode yang mampu mengatasi kesulitan dalam menentukan knot karena knot ditentukan oleh data. Namun RPR masih memiliki kekurangan dalam pemodelan regresi. Kekurangan RPR yaitu belum cukup mampu menduga 𝑓(𝑥) linier atau aditif dan model RPR menghasilkan subregion yang tidak kontinu pada knot (Friedman, 1991).
21
2.8.2 Spline
Untuk mengatasi kekurangan dari RPR, Jerome H. Friedman melakukan modifikasi. Untuk menduga fungsi linier atau aditif, Friedman melakukan inovasi dengan cara tidak menghapus induk atau parent region selama pemilahan subregion dilakukan. Sehingga pada iterasi selanjutnya parent dan pilahan subregion dapat dipilah lebih lanjut, hal ini akan menghasilkan subregion yang saling tumpang tindih. Selain itu, modifikasi ini juga menghasilkan model linier dengan pemilahan berulang pada peubah prediktor yang berbeda serta menghasilkan model yang fleksibel (Friedman, 1991).
Modifikasi tersebut belum dapat mengatasi diskontinuitas pada titik knot yang disebabkan oleh adanya perkalian fungsi univariat. Oleh karena itu Friedman mengganti perkalian fungsi univariat dengan regresi linier spline ordo satu.
Regresi spline adalah suatu pendekatan ke arah plot data dengan tetap memperhitungkan kemulusan kurva. Spline merupakan model polinomial yang tersegmen atau terbagi dimana sifat segmen inilah yang memberikan fleksibelitas yang lebih baik dibanding model polinomial biasa. Sifat ini memungkinkan model regresi spline menyesuaikan diri secara efektif terhadap karakteristik lokal dari data. Penggunaan spline difokuskan kepada adanya perilaku atau pola data, yang pada daerah tertentu mempunyai karakteristik yang berbeda dengan daerah lain. Fungsi spline berorde ke-1 dengan satu variabel penjelas adalah sembarang fungsi yang secara umum dapat disajikan dalam bentuk 𝑓(𝑥) = 𝛽0 + 𝛽1 𝑋 + 𝛽2 (𝑋 − 𝐾)1+ +𝜀𝑖
(2.16)
22
𝛽0
= Intersep
𝛽1
= Slope
K
= Knot
X
= Peubah penjelas
(Eubank, 1998)
Pada regresi splines ini sisi kiri (-) dan sisi kanan (+) truncated spline sebagai berikut : 𝑆
𝑗 𝐵𝑗 (𝑥) = ∏𝑖=1 [𝑠𝑖𝑗 (𝑥𝑘(𝑖,𝑗) − 𝑡(𝑖,𝑗) )]
(2.17)
Dengan 𝑆𝑗 jumlah pilihan subregion ke-j dari domain D, 𝑡(𝑖,𝑗) merupakan knot dari variabel bebas 𝑥𝑘(𝑖,𝑗) dan nilai 𝑠𝑖𝑗 nilainya 1 dan -1 jika knot ada di kanan dan kiri subregion.
Beberapa istilah yang perlu diperhatikan dalam metode dan pemodelan MARS adalah sebagai berikut : 1.
Knots Knot merupakan nilai variabel prediktor ketika slope suatu garis regresi mengalami perubahan yang dapat didefinisikan sebagai akhir dari sebuah garis regresi (region) dan awal dari sebuah garis regresi (region) yang lain. Pada setiap titik knot, diharapkan adanya kontinuitas dari fungsi basis antar satu region dengan region lainnya. Minimum jarak antara knot atau minimum observasi (MO) antara knot adalah 0,1,2, dan 3 observasi.
23
2.
Basis Fungsi (BF) Fungsi Basis yaitu suatu fungsi parametrik yang didefinisikan pada tiap region yang digunakan untuk menjelaskan hubungan antara variable respon dan variable prediktornya. Fungsi basis ini berupa selang antar knot yang berurutan. Pada umumnya fungsi basis yang dipilih berbentuk polynomial dengan turunan yang kontinu pada setiap titik knot. Maksimum fungsi basis yang diizinkan adalah 2-4 kali jumlah variable prediktornya.
3. Interaksi Merupakan hubungan korelasi antar variabel (hasil perkalian silang antar variabel yang saling berkorelasi). Jumlah Maksimum Interaksi (MI) yang diperbolehkan adalah 1,2 atau 3. Jika MI > 3 akan dihasilkan model semakin kompleks dan model akan sulit diinterpretasi.
Model MARS digunakan untuk mengatasi kelemahan Recursive Partitioning Regression (RPR) yaitu menghasilkan model yang kontinu pada knot dan dapat mengidentifikasi adanya fungsi linear dan aditif. Hasil modifikasi model RPR dengan kombinasi splines oleh Friedman (1991) adalah model multivariate adaptive regression splines (MARS) sebagai berikut: 𝐾𝑚 𝑓(𝑥) = 𝑎0 + ∑𝑀 𝑚=1 𝑎𝑚 ∏𝑘=1[𝑠𝑘𝑚 (𝑥𝑖(𝑘,𝑚) − 𝑡(𝑘,𝑚) )] + 𝜀𝑖
(2.18)
Persamaan model MARS dapat disederhanakan sebagai berikut : 𝑓(𝑥) = 𝑎0 + 𝑎1 𝐵𝐹1 + 𝑎2 𝐵𝐹2 + … + 𝑎𝑚 𝐵𝐹𝑚 + 𝜀𝑖 dimana : 𝑓̂(𝑥)
= Variabel respon
𝑎0
= Konstanta
(2.19)
24
𝑎𝑚
= Koefisien untuk basis fungsi ke-m
𝐵𝐹𝑚
= Basis fungsi ke-m
Pemodelan MARS ditentukan berdasarkan trial and error untuk kombinasi BF, MI dan MO untuk mendapatkan nilai GCV yang minimum. Persamaan GCV adalah sebagai berikut : GCV(M) =
1 𝑛
2 ̂ ∑𝑛 𝑖=1[𝑦𝑖 −𝑓𝑀 (𝑥𝑖 ]
[1−
̃ (𝑀) 2 𝐶 ] 𝑛
(2.20)
dengan : 𝐶̃ (𝑀) = 𝐶(𝑀) + 𝑑𝑀 𝐶(𝑀) = trace (𝑩(𝑩𝑇 𝑩)−1 𝑩𝑇 ) + 1 Dimana : n
= Banyaknya data
B
= Basis fungsi
M
= Jumlah basis fungsi
d
=2≤𝑑≤4
1 𝑛
2 ∑𝑛𝑖=1[𝑦𝑖 − 𝑓̂𝑀 (𝑥𝑖 ] = Average Sum Square of Residual
Untuk memperoleh model akhir MARS digunakan metode stepwise.
2.8.2 Metode Stepwise
Multivariate adaptive Regression Spline (MARS) merupakan proses stepwise. Metode Stepwise adalah kombinasi antara metode forward dan backward. Pada tahap proses forward, proses penambahan basis fungsi ditambahkan sampai batas maksimum yang diperbolehkan dalam model tercapai. Pada tahap proses
25
backward yaitu proses penghapusan stepwise. Semua basis fungsi yang tidak perlu dihapus sampai model akhir diperoleh yang berdasarkan GCV yaitu model dengan minimum GCV. Pada proses forward dan backward menghasilkan model dengan jumlah basis fungsi yang berbeda. Model yang menghasilkan nilai GCV terkecil dipilih sebagai model terbaik. (Kriner, 2007) Untuk menduga koefisien model mars yaitu 𝑎 digunakan metode Penalized Least Square (PLS). Metode Penalized Least Square (PLS) merupakan perluasan metode least square dengan menambahkan parameter penghalus dan penalti pada fungsi yang akan digunakan.
2.9 Metode Penalized Least Square
Metode Penalized Least Square (PLS) merupakan perluasan metode least square dengan menambahkan parameter penghalus dan penalti pada fungsi yang akan digunakan. Fungsi yang akan dipergunakan merupakan keluarga fungsi yang terdifferensial pada interva [𝑎, 𝑏] dan kontinu absolut pada turunan pertama. Bentuknya adalah sebagai berikut : 1
𝑏
𝑆(𝛽, 𝑓) = 𝑛 ∑𝑛𝑖=1(𝑦𝑖 − 𝑓(𝑦𝑖 ) + 𝜆2 ∫𝑎 (𝑓 𝑚 (𝑢))2 𝑑𝑢
(2.21)
𝑏
Dalam hal ini 𝜆 merupakan parameter penghalus dan ∫𝑎 (𝑓 𝑚 (𝑢))2 𝑑𝑢 merupakan penalti. Metode PLS dilakuakn dengan cara meminimumkan nilai 𝑍 dengan nilai ⏞ − 𝐵𝑎) 𝑇 (𝑌 ⏞ − 𝐵𝑎) dan 𝜆2 = 0. 𝑍 = (𝑌
(Wahba, 1990)
III. METODOLOGI PENELITIAN
3.1 Waktu dan Tempat Penelitian
Penelitian ini dilakukan pada semester genap tahun akademik 2015/2016, bertempat di Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Lampung.
3.2 Metode Penelitian
Adapun langkah-langkah dalam penelitian ini adalah sebagai berikut : 1. Menentukan fungsi baseline hazard. a. Menentukan fungsi distribusi kumulatif distribusi Weibull. b. Menentukan fungsi masa hidup (survival) distribusi Weibull. c. Menentukan fungsi hazard distribusi Weibull. 2. Menentukan estimasi parameter untuk fungsi baseline hazard dengan metode Maximum Likelihood Estimator (MLE). a. Menentukan fungsi Maximum Likelihood Estimation (MLE) b. Menurunkan fungsi MLE dengan fungsi ln. c. Mencari turunan pertama dari ln fungsi MLE terhadap parameter α dan β yang akan diduga dan menyamakan dengan nol.
27
d. Apabila solusi dari persamaan yang dihasilkan dari langkah ini tidak memperoleh penyelesaian, maka prosedur pendugaan dilanjutkan dengan menggunakan itersi Newton-Raphson. 3. Menentukan model MARS dengan metode stepwise dan menentukan estimasi koefisien model pada model MARS dengan menggunakan pendekatan Penalized Least Square.
3.3 Studi Kasus
Dalam melakukan studi kasus, penulis menggunakan data sekunder yaitu data remission survival time on 42 patient leukaemia dengan menggunakan software R. adapun langkah-langkahnya sebagai berikut : 1. Menentukan data survival dengan menghilangkan data tersensor. 2. Mendeskripsikan karakteristik pasien leukimia yang diteliti. 3. Mencocokkan apakah distribusi data survival merupakan distribusi weibull. 4. Melakukan resampling sebanyak 50, 100, 500, 900, dan 1000. 5. Menentukan estimasi dari masing-masing jumlah resampling. 6. Menentukan model analisis survival dengan pendekatan MARS untuk masing-masing resampling. 7. Mendapatkan model terbaik berdasarkan nilai GVC minimum. 8. Membandingkan model analisis survival dengan pendekatan MARS untuk masing-masing resampling.
V.
KESIMPULAN
Adapun kesimpulan dari penelitian ini yaitu : 1. Model analisis survival dengan pendekatan MARS untuk distribusi Weibull yaitu : h(t,X)
= ℎ𝑦 (t)𝑒 𝛽𝑋 𝑎
= 𝜏𝑎 𝑡 𝑎−1 𝑒 𝛽𝑋 2. Hasil estimasi dari parameter model analisis survival dengan pendekatan MARS yaitu : 𝛼̂
=
𝑛 1 𝛼 𝜏̂
𝑛 𝛼 ∑𝑛 𝑖=1 𝑡𝑖 ln 𝑡𝑖 − ∑𝑖=1 ln(𝑡𝑖 ) 1
1
𝛼 [𝑛 ∑𝑛𝑖=1 𝑡𝑖 𝛼 ]
𝜏̂
=
𝛽̂
= (𝑩𝑻 𝑩)−𝟏 𝑩𝑻 𝑌
3. Dalam penerapan analisis survival dengan pendekatan MARS data yang tersedia yaitu 30 sehingga model laju kematian yang dihasilkan yaitu : h(t,X)
1.49451
= (10.74389)1.49451 𝑡 0.49451 exp(1.621585𝑒 − 16)
Berdasarkan model diatas dapat dilihat bahwa tidak ada variabel bebas yang signifikan.
57
4. Dalam penerapan analisis survival dengan pendekatan MARS untuk data resampling sebanyak
50, 100, 500, 900, dan 1000, model MARS yang
dihasilkan adalah sebagai berikut : Model MARS Model MARS 1 Model MARS 2 Model MARS 3 Model MARS 4 Model MARS 5
n 50 100 500 900 1000
d 2 2 2 2 2
MI 2 2 2 2 2
GCV 0.7417563 0.4634711 0.437007 0.4342531 0.4013747
Rsq 0.1973455 0.6190184 0.4849229 0.4705763 0.5087707
RSS 30.0411 30.4083 198.864 371.107 383.124
Berdasarkan tabel diatas dapat dilihat bahwa semakin besar jumlah sampel yang digunakan maka nilai GCV yang dihasilkan semakin minimum dan nilai kelajuannya semakin kecil yaitu pada jumlah resampling 1000 dengan nilai GCV = 0.4013747. Adapun laju kematian yang dihasilkan adalah sebagai berikut : h(t,X)
1.301890
=2.711739(1.301890) 𝑡 0.301890 exp(− 7.85 + 9.82 𝐵𝐹1 − 14.54 𝐵𝐹2 +
14.88 𝐵𝐹3 − 20.19 𝐵𝐹4 + 16.55 𝐵𝐹5 − 8.86 𝐵𝐹6 + 4.13 𝐵𝐹7 + 6.04 𝐵𝐹8 − 3.18 𝐵𝐹9 + 2.89 𝐵𝐹10 − 3.32 𝐵𝐹11 Dimana 𝐵𝐹1 𝐵𝐹2 𝐵𝐹3 𝐵𝐹4 𝐵𝐹5 𝐵𝐹6 𝐵𝐹7 𝐵𝐹8 𝐵𝐹9 𝐵𝐹10 𝐵𝐹11
= h(𝑋2 − 1.97) = h(𝑋2 − 2,32) = h(𝑋2 − 2,57) = h(𝑋2 − 2.88) = h(𝑋2 − 2.95) = h(𝑋2 − 3.28) = h(3.6 − 𝑋2 ) = h(𝑋2 − 3.6) =h(𝑋2 − 3.97) = h(𝑋2 − 3.28) ∗ 𝑋3 = h(𝑋2 − 3.6) ∗ 𝑋3
58
Berdasarkan model yang diperoleh variabel yang berpengaruh terhadap laju kematian pasien leukimia baik secara individu maupun berinteraksi adalah kadar sel darah putih dan jenis treatment penyembuhan. Jumlah kadar sel darah putih mempunyai tingkat kepentingan tertinggi dalam mempengaruhi laju kematian pasien leukimia yaitu sebesar 100% sedangkan tingakt kepentingan jenis treatment penyembuhan yaitu sebesar 36.6%.
DAFTAR PUSTAKA
Casella, G. dan Berger, R.L. 1990. Statistical Inference. Wadsworth and Brooks/Cole, California. Collett, D. 2003. Modelling Survival Data n Medical Research (2𝑛𝑑 ). London. Chapman & Hall/CRC
Eubank, R.L. 1998. Spline Smoothing and Nonparametric Regression. New York. Marcel Dekker. Evan, M., dkk. 2011. Statical Distribution (4𝑡ℎ ). United State of America. John Wiley &Sons, Inc.
Friedman, J. H. 1990. Multivariate Adaptive Regression Spline. Stanford Linear Acceleration Center and Department of statistic, Stanford University.
Hogg, R.V. dan Craig, A.T. 1995. Introduction to Mathematical Statistics, 5 th Edition. Prentice-Hall, Inc.
Kleinbaum, D. , & Klein, M. 2005. Survival Analysis, a self-learning (2𝑛𝑑 ). USA. Springer Science+Bussiness Media, Inc.
Kriner, M. 2007. Survival Analysis with Multivariate Adaptive Regression Spline. German. Munchen University.
Nisa, S.F., dan Budiantara, I N. 2012. Analisis Survival dengan Pendekatan Multivariat Adaptive Regression Splines pada Kasus Demam Berdarah Dengue (DBD). Jurnal Sains dan Seni ITS. Vol. 1, No.1. Rencher, Alvin C. (2002). Method of Multivariate Analysis(2𝑛𝑑 ). USA: A John Wiley & Sons, Inc. Publication
Sudjana. 2005. Metoda Statistik. Bandung. Tarsito.
Wahba, G.(1990). Spline Models for Observasional Data. Pensylvania. SIAM.