BAB I PENDAHULUAN
1.1. Latar Belakang Masalah Banyak jenis data memiliki struktur hirarki, tercluster, atau bersarang (nested). Hirarki tersebut dapat hadir secara alami dalam pengamatan observasional atau dikarenakan
desain
pada
pengamatan
eksperimental.
Struktur
hirarki
mengindikasikan bahwa data yang dianalisis berasal dari beberapa level, dimana level yang lebih rendah tersarang pada level yang lebih tinggi. Data dengan struktur hirarki merupakan data yang timbul karena individu-individu dalam kelompok yang sama memiliki karakteristik yang cenderung sama. Data yang mempunyai struktur hirarki dinamakan data multilevel. Dalam kehidupan sehari-hari sering dijumpai data yang memiliki struktur hirarki atau berkelompok, misalnya siswa (level 1) tersarang dalam kelas (level 2); karyawan (level 1) tersarang dalam divisi (level 2) tersarang dalam perusahaan (level 3), dan sebagainya. Data pengamatan berulang dimana satu individu diamati beberapa titik waktu juga dapat dipandang sebagai data dengan struktur hirarki, dimana nilai pengamatan antar waktu (level 1) tersarang dalam individu (level 2). Pemodelan multilevel merupakan suatu teknik analisis statistika untuk menganalisis data dengan struktur hirarki seperti ini. Dengan demikian pemodelan multilevel dapat diterapkan terhadap data pengamatan berulang. (Hox, 2002, west et al. 2007, Steele 2008) Pada pemodelan multilevel, variabel respon diukur pada level terendah, sementara variabel penjelas dapat didefinisikan pada setiap level. Dalam struktur hirarki, individu-individu dalam kelompok yang sama memiliki karakteristik yang cenderung mirip, dengan kata lain antar pengamatan pada level yang lebih rendah tidak saling bebas, sehingga melanggar asumsi kebebasan dalam pendekatan statistika 1
2
konvensional. Jika pelanggaran asumsi ini diabaikan maka akan mengakibatkan meningkatnya resiko kesalahan jenis I dalam pengujian hipotesis. Pelanggaran terhadap asumsi independensi dalam pengujian hipotesis akan cenderung menolak hipotesis nol dan menyimpulkan terdapat hubungan yang nyata antara peubah bebas dengan peubah responnya (Hox, 2002). Jika masalah multilevel dianalisis menggunakan metode analisis standar, seperti model regresi berganda, ANOVA, dan lainnya, maka analisis dilakukan dengan mengumpulkan semua variabel pada level rendah atau pada level tinggi. Hal ini akan menimbulkan beberapa masalah, yaitu, jika analisis dilakukan pada level tinggi, maka informasi di level rendah akan hilang. Akibatnya, power dari pengujian statistik pada level ini juga dapat berkurang karena banyaknya informasi yang hilang dari level rendah. Jika analisis dilakukan pada level rendah artinya pengelompokkan data diabaikan, masalah yang akan timbul adalah multikolinearitas sehingga model yang dihasilkan menjadi kurang baik. Oleh karena itu, untuk data dengan struktur hirarki perlu dilakukan analisis menggunakan pemodelan multilevel. Selain itu adanya keperluan untuk menganalisis peubah-peubah yang berasal dari beberapa level secara simultan juga menjadi pertimbangan digunakannya pemodelan multilevel (Hox, 2002). Terdapat perbedaan antara penggunaan model regresi linear dengan regresi multilevel, yaitu variabel respon dalam model regresi linear membutuhkan asumsi-asumsi independensi dari observasi yang tergantung pada variabel prediktor dan kesalahan residual tidak berkorelasi, sedangkan pada model regresi multilevel mempertimbangkan variasi dalam struktur hirarki pada tiap observasi. Hal ini mengakibatkan secara simultan dilakukannya pemeriksaan efek dari tingkat kelompok (cluster) dan variabel tingkat individu. Secara umum, dalam analisis regresi multilevel memungkinkan adanya pemeriksaan baik antar kelompok dan dalam kelompok variabilitas serta bagaimana tingkat kelompok dan variabel tingkat individu berhubungan dengan variabilitas pada
3
kedua tingkat (level). Hal ini yang menyebabkan regresi multilevel akan menghasilkan eror yang jauh lebih kecil dibandingkan dengan regresi linear. Pola hubungan antara variabel prediktor dengan variabel respon dapat dinyatakan dalam bentuk persamaan regresi. Sering ditemui variabel respon yang merupakan data yang menyatakan lama waktu sampai suatu peristiwa (event) terjadi. Data seperti ini dinamakan data survival. Data survival yang tercluster terjadi secara luas dalam penelitian medis. Data survival banyak ditemui di berbagai bidang terutama penelitian bidang kesehatan, dimana data yang diperoleh berasal dari suatu pengamatan terhadap sekelompok atau beberapa kelompok pasien. Beberapa event yang sering menjadi perhatian di antaranya kematian, kesembuhan, kambuhnya suatu penyakit, dan lain sebagainya. Analisis survival mencakup berbagai teknik statistik berguna untuk menganalisis variabel acak yang berupa waktu survival (survival time) atau waktu kegagalan (failure time). Dalam menganalisis data survival tidak dapat digunakan regresi linear biasa karena regresi linear biasa tidak mampu menangani adanya observasi yang tersensor, yaitu observasi yang tidak teramati karena hilang ataupun tidak lengkap. Perkembangan yang cukup penting dalam penelitian analisis survival adalah
memodelkan
bentuk
ketergantungan
dalam
data
survival
dengan
mempertimbangkan model frailty. Seringkali dalam analisis data survival, waktu survival dalam kelompok yang sama saling berkorelasi karena kovariat tidak teramati. Salah satu cara agar kovariat tersebut dapat diamati adalah dengan memasukkan kovariat yang tidak teramati ke dalam model sebagai frailty. Gagasan mengenai frailty menyediakan cara yang sederhana untuk menunjuk efek acak, hubungan dan heterogenitas yang tidak teramati ke dalam model untuk data survival. Model frailty dalam bentuk yang paling sederhana adalah faktor proporsionalitas yang tidak teramati yang memodifikasi fungsi hazard. Model frailty yang umum dikenal dengan model shared-frailty. Model ini merupakan perluasan dari model Cox proporsional hazard (Wienke, 2011).
4
Ada dua macam frailty yang selama ini dikembangkan oleh para peneliti, yaitu one-component frailty dan multi-component frailty atau sering disebut multilevel frailty. Terdapat beberapa macam distribusi yang mendasari frailty, yaitu gamma, inverse Gaussian, lognormal dan lain sebagainya. Metode pendekatan yang sering digunakan untuk mengestimasi parameternya adalah algoritma EM, algoritma MEM, Gibbs sampling, penalized likelihood dan lain sebagainya. Dalam penelitian ini akan dipertimbangkan model frailty dalam analisis data multilevel survival dengan efek random untuk memperhitungkan ketergantungan antar pengamatan. Model multilevel dikembangkan untuk menganalisis data bersarang. Dalam analisis survival, terdapat banyak cara dimana data dapat bersarang, yaitu ketika terjadi observasi berulang, pengukuran berulang dalam satuan percobaan yang sama atau ketika data dapat dikelompokkan secara alami. Pendekatan yang akan digunakan dalam penelitian ini adalah hierarchical likelihood yang diperkenalkan oleh Ha, dkk (2001) yang digunakna untuk mengestimasi parameter dari variabel-variabel penjelas dan frailty yang diasumsikan berdistribusi lognormal. Untuk metode lognormal frailty, McGilchrist & Aisbett (1991) dan McGilchrist (1993) menggunakan parsial likelihood Cox, namun metode tersebut tidak dapat menangani adanya ties. Klein (1992) dan Nielsen dkk (1992) menggunakan prosedur estimasi EM. Dalam prosedur model gamma frailty memang memberikan solusi analitis, namun tidak untuk distribusi lainnya, selain itu estimasi varians untuk parameter yang diamati tidak tersedia secara langsung. (Ha, dkk, 2001) Prosedur hierarchical likelihood memberikan algoritma yang lebih efisien untuk model frailty dengan distribusi yang beragam, termasuk gamma dan lognormal. Oleh sebab itu, berdasarkan beberapa kelebihan dari hierarchical likelihood yang dikemukakan oleh Ha, dkk (2001) penulis tertarik untuk mengestimasi model multi komponen lognormal frailty pada data survival tiga level.
5
1.2. Tujuan dan Manfaat Penelitian Berdasarkan latar belakang masalah di atas, tujuan dari penelitian ini adalah sebagai berikut: a. Mempelajari konsep model multilevel pada analisis data survival dengan efek random dengan pendekatan hierarchical likelihood pada model frailty dan melakukan estimasi terhadap parameternya pada data cluster yang berstruktur hirarki. b. Melakukan studi kasus model multilevel pada analisis data survival dengan efek random untuk mengetahui pengaruh frailty terhadap variabel respon dan mendapatkan nilai estimasi dari parameter-parameter dalam model. Selanjutnya hasil dari penelitian ini diharapkan menambah wawasan bagi pembaca, terutama yang mendalami bidang analisis data survival dan pemodelan multilevel sehingga dapat digunakan sebagai batu pijakan untuk penelitian yang lebih lanjut. 1.3. Pembatasan Masalah Pada penelitian ini pembatasan masalah diperlukan supaya tidak terjadi penyimpangan dari tujuan awal penelitian. Oleh karena itu pembahasan hanya akan dilakukan pada pendekatan hierarchical likelihood untuk model multi komponen lognormal frailty pada data multilevel survival tiga level yang dilengkapi dengan kasus data tersensor . 1.4. Tinjauan Pustaka Pemodelan multilevel dijelaskan untuk analisis data yang berkaitan dengan data survival. Banyak jenis data memiliki struktur hirarki atau berkerumun. Untuk analisis data survival, jika variabel respon adalah waktu untuk terjadinya kejadian tertentu, hirarki data tersebut dapat muncul. Dalam pengamatan Chronic Granulotomous Disease (CGD), efektivitas pengobatan baru (𝛾-IFN) dalam mengurangi tingkat
6
infeksi serius diselidiki. Oleh karena setiap pasien mungkin mengalami beberapa peristiwa kegagalan, umumnya dianggap sebagai model survival efek random adalah model dua level yang mengasumsikan bentuk frailty terdistribusi secara identik independen untuk setiap pasien. Istilah frailty tersebut merupakan variasi akibat heterogenitas pasien. Namun, karena masing-masing pasien milik salah satu dari 13 rumah sakit, variasi mungkin disebabkan oleh efek acak rumah sakit juga. Dalam hal ini, model survival tiga tingkat harus dipertimbangkan. Menurut struktur hirarki data, infeksi didefinisikan sebagai unit level 1, pasien sebagai unit level 2, dan rumah sakit sebagai unit level 3. Tujuan dari penelitian ini adalah untuk mencari efek 𝛾-IFN dalam mengurangi tingkat infeksi maupun memperkirakan variansi dari efek acak yang berkerumun. Mengabaikan efek cluster random tersebut dapat mengakibatkan mengabaikan pentingnya efek cluster tertentu dan menimbulkan pertanyaan validitas teknik statistik tradisional yang digunakan untuk mempelajari hubungan data (Goldstein, 1995). Awalnya model frailty untuk data survival oleh Hougaard (1984, 1986a,b) dianggap sebagai pemodelan parametrik dari heterogenitas antar individu dalam populasi menggunakan gamma, invers Gaussian, dan distribusi stabil positif. Berbagai pendekatan telah diusulkan dalam beberapa tahun berikutnya. Data Model survival dengan pengelompokan dua level dapat dilihat pada Clayton (1991), Gray (1992), Klein (1992), Nielsen et al. (1992), McGilchrist (1993), Lin (1994). Yau (2001) mengembangkan model dua level dari McGilchrist (1993) untuk model survival dengan tiga level hirarki berdasarkan metode General Linear Mixed Model (GLMM). Kemudian Ha, dkk (2001) memperkenalkan pendekatan hierarchical likelihood yang digunakan untuk mengestimasi parameter dari variabel-variabel penjelas dan frailty yang tidak hanya digunakan untuk mengestimasi frailty yang diasumsikan berdistribusi gamma namun juga lognormal. Untuk metode lognormal frailty, McGilchrist & Aisbett (1991) dan McGilchrist (1993) menggunakan parsial likelihood Cox, namun metode tersebut tidak dapat
7
menangani adanya ties. Sementara Klein (1992) dan Nielsen dkk (1992) menggunakan prosedur estimasi EM. Dalam prosedur model gamma frailty memang memberikan solusi analitis, namun tidak untuk distribusi lainnya, selain itu estimasi varians untuk parameter yang diamati tidak tersedia secara langsung. (Ha, dkk 2001) Pada tahun 1991 McGilchrist dan Aisbett melakukan penelitian mengenai frailty dalam analisis survival damal jurnalnya “Regression with Frailty in Survival Analysis” memusatkan perhatian pada model regresi untuk analisis survival dengan menambahkan efek frailty. Kemudian dua tahun sesudahnya yaitu 1993, dua peneliti tersebut mengembangkan penelitian tentang frailty dengan jurnal “REML Estimation for Survival Models with Frailty”. REML (Restricted Maximum Likelihhod) digunakan untuk mengestimasi model survival dengan penambahan frailty. Lee dan Nelder (1996) mengusulkan untuk menggunakan hierarchical likelihood untuk inferensi model dengan efek random (frailty) dalam jurnalnya “Hierarchical Generalized Linear Models (with Discussion)”. Selanjutnya Ha, dkk (2001) mewujudkan usulan tersebut dalam penelitiannya yang membahas model frailty dan prosedur hierarchical likelihood yang berjudul “Hierarchical likelihood Approach for Frailty Models”. Prosedur hierarchical likelihood memberikan algoritma yang lebih efisien untuk model frailty dengan distribusi yang lebih beragam, termasuk gamma dan lognormal. Oleh sebab itu, berdasarkan beberapa kelebihan dari hierarchical likelihood yang dikemukakan oleh Ha, dkk (2001) penulis tertarik untuk membahas pendekatan hierarchical likelihood yang akan digunakan untuk mengestimasi model lognormal frailty pada data survival tiga level. Sebagai ilustrasi, model seperti itu diterapkan pada data infeksi berulang penyakit granulomatosa kronis (CGD) dari Fleming dan Harrington (1991), dengan pengamatan infeksi, pasien, dan rumah sakit yang dianggap sebagai tiga tingkatan dengan kedua rumah sakit dan efek pasien yang dianggap random.
8
1.5. Metodologi Penelitian Metode yang digunakan dalam penelitian ini adalah studi literatur, yaitu mempelajari buku-buku dan jurnal-jurnal yang berkaitan dengan model multilevel, terutama pemodelan untuk analisis data survival. Tahap pertama yang dilakukan adalah mempelajari konsep pemodelan multilevel dan model multilevel untuk data survival. Kemudian memahami mengenai frailty dalam data survival dilanjutkan dengan memodelkan frailty tersebut untuk kasus multi komponen. Setelah itu dilakukan proses matematis untuk mendapatkan formula yang digunakan untuk mengestimasi parameter menggunakan hierarchical likelihood. Selanjutnya dilakukan studi kasus pada sata survival tiga level. 1.6. Sistematika Penulisan Tesis ini disusun dengan sistematika penulisan sebagai berikut: BAB I PENDAHULUAN Bab ini berisi tentang latar belakang masalah, tujuan dan manfaat penelitian, pembatasan masalah, tinjauan pustaka, metodologi penelitian, dan sistematika penulisan. BAB II LANDASAN TEORI Bab ini berisi tentang teori-teori yang akan digunakan dalam pembahasan, diantaranya Variabel Random, Model Regresi Linear Ganda, Data Multilevel dan Frailty, Model Regresi Multilevel Linear, Fungsi Likelihood, Statistik Uji t, Data Survival beserta fungsi-fungsi dalam analisis data survival, Regresi Cox, Metode Newton-Raphson dan Akaike Information Criterion (AIC). BAB III METODE HIERARCHICAL LIKELIHOOD UNTUK MODEL LOGNORMAL FRAILTY
9
Bab ini berisi pembahasan mengenai prosedur estimasi model lognormal frailty dengan menggunakan pendekatan hierarchical likelihood. BAB VI STUDI KASUS Bab ini akan membahas studi kasus model multi komponen lognormal frailty pada data Chornic Ganulomatous Disease (CGD) dari Fleming dan Harrington (1991) dilengkapi dengan kasus tersensor. BAB V KESIMPULAN DAN SARAN Bab terakhir berisi kesimpulan dari hasil pembahasan pada bab-bab sebelumnya dan saran yang nantinya diharapkan dapat digunakan untuk penelitian selanjutnya untuk pengembangan metode dalam penelitian.