BAHAN AJAR
BIOSTATISTIKA DAN EPIDEMIOLOGI (MMS-4411)
Disusun oleh: Dr. Danardono, MPH.
PROGRAM STUDI STATISTIKA JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS GADJAH MADA 2011
Daftar Isi 1 Pendahuluan 1.1 Tujuan Pembelajaran . . . . . . . . . 1.2 Biostatistika dan Epidemiologi . . . . 1.3 Profesi Biostatistisi dan Epidemiolog . 1.4 Metode dan Proses Pembelajaran . . . 1.5 Latihan dan Tugas . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
2 2 2 3 3 4
2 Desain Penelitian 5 2.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Penelitian dalam Bidang Ilmu Hayati, Kedokteran, dan Epidemiologi 5 2.3 Penelitian observasional . . . . . . . . . . . . . . . . . . . . . . 7 2.4 Penelitian Cross-sectional dan Longitudinal . . . . . . . . . . . . 7 2.5 Penelitian Follow-up . . . . . . . . . . . . . . . . . . . . . . . . 8 2.6 Penelitian Case-control . . . . . . . . . . . . . . . . . . . . . . . 8 2.7 Penelitian Klinis . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.8 Model Statistik dan Kausalitas . . . . . . . . . . . . . . . . . . . 9 2.9 Latihan dan Tugas . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3 Statistik dan Ukuran dalam Epidemiologi 3.1 Tujuan Pembelajaran . . . . . . . . . 3.2 Prevalensi dan insidensi . . . . . . . . 3.2.1 Model untuk Prevalensi . . . 3.2.2 Model untuk Insidensi . . . . 3.3 Faktor Resiko . . . . . . . . . . . . . 3.4 Inferensi untuk RD, RR dan OR . . . 3.5 Latihan . . . . . . . . . . . . . . . .
. . . . . . .
15 15 15 17 20 23 25 29
4 Perancuan dan Interaksi 4.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Konsep dan Identifikasi Perancuan . . . . . . . . . . . . . . . . .
31 31 31
ii
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
iii
Daftar Isi
4.3
4.4 4.5
Metode Standarisasi dan Mantel-Haenszel 4.3.1 Standarisasi Langsung . . . . . . 4.3.2 Standarisasi Tidak Langsung . . . 4.3.3 Mantel-Haenszel . . . . . . . . . Interaksi . . . . . . . . . . . . . . . . . . Latihan . . . . . . . . . . . . . . . . . .
5 Model Linear Tergeneralisasi 5.1 Tujuan Pembelajaran . . . . . . . . . 5.2 Generalisasi Model Linear . . . . . . 5.3 Regresi Logistik . . . . . . . . . . . . 5.3.1 Model dan Estimasi Parameter 5.3.2 Interpretasi Parameter Model . 5.4 Regresi Poisson . . . . . . . . . . . . 5.4.1 Model dan Estimasi Parameter 5.4.2 Interpretasi Parameter Model . 5.5 Latihan . . . . . . . . . . . . . . . .
. . . . . . . . .
. . . . . . . . .
6 Uji Diagnostik 6.1 Tujuan Pembelajaran . . . . . . . . . . . 6.2 Sensitivitas, Spesifisitas dan Nilai Prediksi 6.3 Kurva ROC . . . . . . . . . . . . . . . . 6.4 Latihan . . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
34 34 35 36 37 39
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
41 41 41 43 43 44 48 48 49 55
. . . .
58 58 58 61 63
. . . . . .
65 65 65 70 72 73 75
. . . . . .
77 77 77 81 84 86 88
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
7 Analisis Data Longitudinal 7.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . 7.2 Deskripsi Data longitudinal . . . . . . . . . . . . . . . 7.3 Model Regresi Data longitudinal . . . . . . . . . . . . 7.3.1 Naive Model . . . . . . . . . . . . . . . . . . 7.3.2 Model Linear Umum untuk Data Longitudinal 7.4 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . 8 Analisis Data Survival 8.1 Tujuan Pembelajaran . . . . . . . . 8.2 Fungsi Survival dan Hazard . . . . . 8.3 Kaplan-Meier dan Life Table . . . . 8.4 Membandingkan Distribusi Survival 8.5 Model Regresi Data Survival . . . . 8.6 Latihan . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . .
. . . . . .
. . . . . .
. . . .
. . . . . .
. . . . . .
. . . .
. . . . . .
. . . . . .
. . . .
. . . . . .
. . . . . .
. . . .
. . . . . .
. . . . . .
1
Daftar Isi
9 Konsultasi Statistika 9.1 Tujuan Pembelajaran . . . . . . . . . . . . . . . . . . . . . . . 9.2 Konsultan Statistik . . . . . . . . . . . . . . . . . . . . . . . . 9.3 Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi 9.4 Ringkasan Metode dan Topik Lanjut . . . . . . . . . . . . . . . 9.5 Latihan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . .
91 91 91 92 94 94
1 Pendahuluan 1.1 Tujuan Pembelajaran Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Menjelaskan pengertian biostatistika dan epidemiologi dan penekanan matakuliah ini 2. Memberi contoh profesi yang berkaitan dengan biostatistika dan epidemiologi 3. Mengidentifikasi bagian-bagian pada RPKPS yang berkaitan dengan Tujuan umum pembelajaran, metode dan proses pembelajaran, penilaian dan sumber referensi
1.2 Biostatistika dan Epidemiologi Biostatistika adalah statistika yang diterapkan pada ilmu hayati, kedokteran dan epidemiologi. Armitage and Colton (1998) mendefinisikan Biostatistika lebih sempit lagi, yaitu metode statistika dalam kedokteran dan ilmu kesehatan, atau dikenal juga sebagai medical statistics. Sedangkan ilmu statistika dalam bidang biologi, lingkungan dan pertanian sering disebut sebagai biometrika (biometrics). Definisi Epidemiologi menurut (Last, 1995) adalah The study of distribution and determinants of health-related states or events in specified population, and the application of this study to control of health problems.
2
1.3. Profesi Biostatistisi dan Epidemiolog
3
MMS-4411 mempunyai penekanan agar lulusan bisa bertindak seperti layaknya konsultan dalam bidang Biostatistika. Untuk itu, materi yang diberikan tidak hanya berupa metode saja namun juga aspek komunikasi, konsultasi dan pengetahuan terkait seperti epidemiologi dan terminologi dalam bidang kesehatan. Matakuliah ini diharapkan akan membuka wawasan lanjut mahasiswa karena banyak pengembangan teori statistika yang berawal dari permasalahan dalam bidang Biostatistika dan Epidemiologi. Selain itu melalui matakuliah ini mahasiswa diharapkan untuk mulai berpikir dan bertindak bukan hanya sebagai statistisi saja, tapi juga sebagai orang yang mempelajari bidang lain dan dengan sudut pandang yang berbeda dari seorang statistisi. Matakuliah ini dapat diambil setelah mahasiswa mengetahui dan memahami dasar serta teknik metode statistik secara umum dan mampu melakukan analisis statistik dengan beberapa metode tertentu. Matakuliah MMS-4411 diharapkan dapat mendukung kompetensi lulusan program studi statistika, khususnya untuk lulusan yang mempunyai minat dan konsentrasi pada bidang Biostatistika.
1.3 Profesi Biostatistisi dan Epidemiolog Profesi biostatistisi dan epidemiolog banyak diperlukan di bidang-bidang seperti tersebut di bawah ini, • Lembaga penelitian • Akademik atau lembaga pendidikan • Lembaga pemerintah bidang kesehatan atau rumah sakit • Industri obat dan farmasi • Konsultan Di Indonesia profesi seperti tersebut belum sepopuler profesi seperti dokter, apoteker atau dosen, namun di negara maju dan di negara ASEAN seperti Singapura profesi ini sudah cukup dikenal. Lembaga penelitian asing yang melakukan penelitian di bidang penyakit tropis biasanya juga membutuhkan tenaga biostatistisi dan epidemiolog lokal. Perencanaan aspek kesehatan, termasuk di dalamnya asuransi kesehatan dan kematian, yang baik dan terukur akan sangat memerlukan ahli di bidang biostatistik dan epidemiologi.
1.4 Metode dan Proses Pembelajaran Metode dan proses pembelajaran untuk matakuliah ini dapat dilihat pada RPKPS (Rencana Program Kegiatan Pembelajaran Semester) MMS-4411.
1.5. Latihan dan Tugas
4
1.5 Latihan dan Tugas 1.1. Sebutkan matakuliah apa saja di program studi Statistika UGM yang terkait matakuliah MMS-4411. 1.2. Carilah kuliah (course) sejenis MMS-4411 di internet atau sumber lain yang mudah diakses (misalnya handbook suatu program studi) baik yang berbahasa Indonesia maupun Inggris. Tuliskan alamat situs internet kuliah tersebut tersebut atau dapatkan hardcopy/softcopy dari handbook suatu program studi, kemudian tuliskan materi atau kompetensi yang diajarkan serta metode pembelajarannya. 1.3. Sebutkan metode apa saja yang pernah saudara pelajari sebelum mengambil matakuliah ini. Berilah satu contoh analisis data terkait penelitian di bidang epidemiologi, kesehatan atau ilmu hayati untuk masing-masing metode yang telah saudara pelajari tersebut. 1.4. Lewat jejaring sosial yang mungkin saudara punyai, carilah lulusan atau alumnus program studi Statistika (dari perguruan tinggi manapun di Indonesia) yang mempunyai profesi terkait konsultan biostatistika, epidemiologi atau pekerjaan lain yang memerlukan kompetensi seorang biostatistisi atau epidemiolog.
2 Desain Penelitian 2.1 Tujuan Pembelajaran Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Menjelaskan tujuan penelitian dalam bidang epidemiologi 2. Menjelaskan tipe-tipe penelitian 3. Mengidentifikasi desain penelitian yang digunakan dalam suatu penelitian 4. Mengusulkan desain penelitian yang tepat untuk suatu permasalahan 5. Menjelaskan peran statistika dalam penelitian di bidang ilmu hayati, kedokteran dan epidemiologi 6. Menjelaskan proses pembangkitan data dikaitkan dengan desain dan model statistik 7. Menyebutkan matakuliah lain yang terkait dengan topik desain penelitian
2.2 Penelitian dalam Bidang Ilmu Hayati, Kedokteran, dan Epidemiologi Menurut Kleinbaum, Kupper and Morgenstern (1982), ada 4 kata kunci tujuan penelitian di bidang epidemiologi, yaitu: describe, explain, predict dan control. Selengkapnya dapat dijelaskan sebagai berikut:
5
2.2. Penelitian dalam Bidang Ilmu Hayati, Kedokteran, dan Epidemiologi
populasi
sampel
A
6
data
B
Gambar 2.1: Skema penelitian secara umum dimulai dari pendefinisian populasi dan unit populasi, tahap A: pengambilan unit sampel dari populasi; tahap B: pengambilan informasi dari sampel. 1. Mendeskripsikan status kesehatan populasi dengan cara melakukan enumerasi kejadian sakit, menghitung frekuensi relatif dan mendapatkan kecenderungan atau trend penyakit; 2. Menjelaskan penyebab penyakit dengan cara menentukan faktor yang menjadi sebab dari suatu penyakit tertentu dan cara transmisinya; 3. Melakukan prediksi kejadian sakit dan distribusi status kesehatan dalam populasi; 4. Melakukan pengendalian penyebaran penyakit dalam populasi dengan pencegahan kejadian sakit, penyembuhan kasus sakit, menambah lama hidup bersama dengan suatu penyakit, atau meningkatkan status kesehatannya Penelitian dalam bidang kedokteran dan epidemiologi secara garis besar sama dengan penelitian lain, seperti misalnya bidang pertanian, biologi dan ilmu rekayasa (teknik). Namun karena penelitian ini banyak melibatkan manusia sebagai subyek, maka banyak teknik atau metode yang dapat diterapkan pada bidang lain yang tidak dapat diterapkan dalam bidang ini karena permasalahan etika. Misalnya, tidak mungkin akan diberikan suatu jenis perlakuan yang membahayakan atau merugikan subyek penelitian. Gambar 2.1 merepresentasikan skema penelitian secara umum. Suatu penelitian dimulai dengan mendefinisikan populasi untuk mana kesimpulan atau hasil
2.3. Penelitian observasional
7
dari penelitian akan dikenakan. Pada tahap ini unit populasi dan variabel penelitian harus ditentukan. Unit populasi adalah bagian terkecil dari populasi yang akan digunakan dalam pengambilan sampel. Sedangkan variabel adalah karakteristik atau informasi yang ingin diperoleh dari unit tersebut. Bagian A pada Gambar 2.1 adalah bagian pengambilan sampel atau penyampelan. Tujuan utama penyampelan adalah untuk mendapatkan wakil yang representatif dari populasi, tanpa harus melihat atau meneliti keseluruhan anggota populasi. Pengambilan sampel dapat dilakukan secara non-random ataupun random. Pengambilan sampel non-random biasanya lebih mudah dibandingkan dengan pengambilan sampel random. Namun, pengambilan random menjamin obyektivitas dan sampel yang representatif, dan banyak analisis statistik yang disusun berdasarkan asumsi sampel random. Dikenal beberapa macam metode pengambilan sampel random yang pada hakekatnya bertujuan untuk mengatasi heterogenitas populasi, seperti misalnya: sampel random sederhana, stratifikasi, kluster, sistematik, dan lainnya. Setelah sampel diperoleh dilanjutkan dengan tahap pengambilan informasi dari unit sampel berdasarkan variabel penelitian yang telah ditentukan (bagian B pada Gambar 2.1). Cara pengambilan informasi dapat dilakukan dengan pengukuran, pencacahan, wawancara, dan sebagainya. Jenis penelitian dapat dibedakan dari apakah ada perlakuan, manipulasi, intervensi atau tindakan yang dinenakan pada unit penelitian sebelum dilakukan tahap B atau tidak. Selain itu, elemen utama yang selalu menyertai penelitian adalah waktu. Penelitian juga dapat dibedakan berdasarkan saat pelaksanaan tahap A maupun B. Lebih jelasnya jenisjenis penelitian tersebut akan diterangkan pada bagian-bagian selanjutnya setelah bagian ini.
2.3 Penelitian observasional Dalam penelitian jenis ini tidak dilakukan manipulasi atau perlakuan pada faktorfaktor yang diteliti. Data diperoleh apa adanya dari populasi. Dalam penelitian ini, tidak dilakukan manipulasi, perlakuan ataupun intervensi pada tahap B (Gambar 2.1).
2.4 Penelitian Cross-sectional dan Longitudinal Dalam penelitian ini, sampel atau data hanya dikumpulkan pada satu titik waktu tertentu saja. Jenis penelitian ini dikontraskan dengan penelitian longitudinal, yaitu penelitian yang dilakukan dalam periode tertentu. Dalam prakteknya penelitian longitudinal dicirikan dengan dikumpulkannya beberapa pengukuran atau ob-
2.5. Penelitian Follow-up
8
servasi untuk satu unit sampel, sedangkan penelitian cross-sectional dicirikan dengan satu pengukuran atau observasi untuk satu unit.
2.5 Penelitian Follow-up Sering juga disebut penelitian prospektif. Dalam penelitian ini subyek diikuti selama jangka waktu tertentu atau sampai suatu kejadian (event), nilai pengukuran atau end-point tertentu diperoleh. Penelitian Follow-up dapat berupa observasional maupun eksperimental.
2.6 Penelitian Case-control Penelitian case-control merupakan salah satu contoh penelitian retrospektif. Penelitian retrospektif yaitu jenis penelitian yang berawal dari suatu event atau end-point. Unit sampel yang memiliki event atau end-point tersebut kemudian diteliti. Penelitian case-control dimulai dari unit yang mendapatkan kasus (penyakit misalnya), kemudian dipilih sekelompok pembanding atau kontrol (yaitu unit yang tidak mendapatkan atau mempunyai kasus). Faktor atau variabel penjelas yang lain juga dikumpulkan untuk masing-masing kasus dan kontrol.
2.7 Penelitian Klinis Penelitian klinis (clinical trial) menurut (Chow, 2000, hal 110) adalah ” ... an experiment performed by a health care organization or professional to evaluate the effect of an intervention or treatment against a control in a clinical environment. It is a prospective study to identify outcome measures that are influenced by the intervention. A clinical trial is designed to maintain health, prevent diseases, or treat diseased subjects. The safety, efficacy, pharmacological, pharmacokinetic, quality-of-life, health economics, or biochemical effects are measured in a clinical trial.” Dalam penelitian ini dilakukan manipulasi, pemberian perlakuan (treatment) atau intervensi pada tahap B (Gambar 2.1) Tahapan penelitian klinis (Le, 2003): • Fase I: Memfokuskan pada keamanan obat baru, fase ini adalah uji coba pertama obat pada manusia setelah sukses dengan uji coba pada binatang
2.8. Model Statistik dan Kausalitas
9
• Fase II: Uji coba skala kecil untuk menilai efektivitas obat dan lebih fokus kepada keamanannya • Fase III: Uji coba klinis lebih lanjut untuk menilai efektivitasnya sebelum didaftarkan pada pihak yang berwenang • Fase IV: Penelitian setelah obat dipasarkan untuk memberikan informasi yang lebih detail tentang efektivitas obat dan keamanannya
2.8 Model Statistik dan Kausalitas Dalam terminologi dan notasi statistika, variabel sering dituliskan dengan huruf X untuk variabel penjelas, variabel independen, faktor; dan Y untuk variabel dependen atau variabel respon. Dalam Epidemiologi dikenal juga istilah variabel paparan (exposure) dan perancu (confounder) yang termasuk dalam kelompok X, dan outcome yang termasuk dalam kelompok Y . Umumnya setiap penelitian bertujuan untuk mencari tahu apakah X menyebabkan Y , atau seberapa besar pengaruh X terhadap Y . Model statistik, seperti misalnya model regresi sederhana E(Y | X) = β0 + β1 X
(2.1)
merupakan representasi untuk mencapai tujuan itu. Statistisi memikirkan model seperti (2.1) sebagai suatu ”pembangkit data” (data generating-process). Realisasi dari model itu adalah data yang diperoleh (sering dituliskan sebagai huruf kecil x dan y). Apabila model dan estimasi parameternya dinyatakan cukup tepat untuk menjelaskan data, dapat dilakukan inferensi atau pengambilan kesimpulan dari model tersebut. Termasuk dalam inferensi itu adalah penggunaan model untuk prediksi dan kausalitas. Perlu diperhatikan bahwa sangat mungkin terdapat lebih dari satu model yang cukup tepat untuk menjelaskan suatu set data. Untuk itu harus diingat pendapat yang mengatakan bahwa ada banyak model yang baik tapi pilihlah satu yang berguna. Dikaitkan dengan penelitian di bidang Epidemiologi dan kedokteran, model yang berguna di sini adalah model yang terdiri dari variabel yang nilainya dapat atau mudah dimodifikasi dalam praktek dan model yang sesederhana mungkin. Desain penelitian, atau cara memperoleh data penelitian, sangat mempengaruhi asumsi model statistik yang pada akhirnya mempengaruhi penjelasan dan interpretasi dari hubungan X dengan Y . Ambil contoh model sederhana seperti (2.1). Misalkan untuk mendapatkan x (realisasi dari variabel X) digunakan cara
2.9. Latihan dan Tugas
10
observasi tanpa perlakuan pada unit sampel (penelitian observasional) maka model ini kurang kuat untuk menjelaskan kausalitas X terhadap Y . Namun bila x diperoleh dengan kaidah desain eksperimental maka model dapat digunakan untuk menjelaskan hubungan kausal Dalam penelitian epidemiologi dikenal prinsip-prinsip untuk mendapatkan bukti adanya kausalitas yang dikenal sebagai Hill’s Criteria for Causality (Armitage and Colton, 1998; Kleinbaum et al., 1982) sebagai berikut: 1. Hubungan (association) yang kuat antara X (variabel independen,faktor resiko atau paparan) dengan Y (variabel dependen, respon atau outcome). 2. Hubungan yang diperoleh harus spesifik dalam arti suatu faktor atau paparan hanya berhubungan dengan satu jenis penyakit saja. 3. Paparan atau faktor (X) harus mendahului respon (Y ), atau sebab harus mendahului akibat. 4. Harus ada penjelasan secara biologis mengapa suatu paparan atau faktor resiko menyebabkan suatu penyakit. 5. Harus dapat ditunjukkan adanya dose-response effect atau biologic gradient yaitu semakin besar tingkat paparan semakin besar kemungkinan terjadinya penyakit 6. Terkait kriteria 5, jika paparan dihilangkan, penyakit juga seharusnya tidak muncul 7. Adanya konsistensi hasil atau kesimpulan yang diperoleh dari beberapa studi.
2.9 Latihan dan Tugas Untuk soal pilihan ganda, pilihlah satu jawaban yang tepat (a, b, c atau d); untuk soal esai tuliskan jawabannya dengan singkat dan jelas! 2.1. Keuntungan desain penelitian case-control terhadap desain penelitian cohort salah satunya adalah: a. dengan desain case-control dapat dihitung OR b. case-control dapat mengatasi masalah etik penelitian terhadap manusia yang mungkin terjadi pada desain cohort c. ukuran sampel untuk case-control relatif lebih kecil dibandingkan cohort d. dapat digunakan untuk menunjukkan hubungan sebab-akibat (cause-effect)
11
2.9. Latihan dan Tugas
2.2. Keuntungan desain penelitian longitudinal terhadap cross-sectional salah satunya adalah: a. lebih mudah dilaksanakan b. ada variabel kontrol yang dapat digunakan sebagai perbandingan c. ukuran sampel relatif lebih kecil d. dapat digunakan untuk menunjukkan hubungan sebab-akibat (cause-effect) 2.3. Suatu penelitian yang bertujuan untuk membandingkan dua perlakuan A dan B dilakukan dengan cara sebagai berikut: subyek secara random diberi perlakuan A atau B; setelah periode waktu tertentu subyek berganti mendapat perlakuan yang lain, untuk subyek yang pada awalnya mendapat perlakuan A kemudian mendapat B, dan sebaliknya. Desain yang digunakan disebut: a. cross-over trial b. cross-sectional c. cohort d. randomized block 2.4. Desain penelitian yang sesuai dan layak (dapat dilaksanakan) untuk mengetahui faktor resiko suatu penyakit dengan insidensi yang sangat rendah (seperti misalnya kanker) adalah: a. cross-sectional b. cohort c. case-control d. clinical-trial 2.5. Dalam penelitian tentang program atau kebijakan yang berkaitan dengan kesehatan masyarakat, randomisasi pada unit penelitian biasanya sulit untuk dilakukan, meskipun demikian pengaruh faktor (pemberian program atau penerapan kebijakan) tetap dapat diteliti efeknya. Desain penelitian yang tepat untuk permasalahan ini adalah: a. cross-sectional b. cohort c. observational d. quasi-experimental 2.6. Misalkan dari teori dan penelitian sebelumnya dapat diasumsikan bahwa perlakuan A, B dan C akan menghasilkan respon individual seperti pada gambar di bawah ini. A respon Y
B C
waktu T
2.9. Latihan dan Tugas
12
Untuk meneliti fenomena tersebut di atas desain yang paling tepat adalah: a. longitudinal b. cross-sectional c. multiple cross-sectional d. survival 2.7. Pada tahun 1985 dilakukan penelitian di Inggris untuk mengetahui apakah wanita yang minum pil kontrasepsi akan mengalami menopause (tidak mengalami siklus menstruasi lagi) lebih awal atau lebih akhir dibandingkan wanita yang tidak minum pil kontrasepsi. Untuk itu diambil satu kelompok wanita yang lahir pada tahun 1930, dengan alasan pada tahun 1985 mereka sudah cukup tua untuk mendapatkan menopause. Berdasarkan catatan di sebuah klinik umum diperoleh 132 wanita. Sebanyak 101 wanita tidak diambil sebagai subyek karena alasan tidak dapat dihubungi, menolak sebagai subyek, belum menopause dan alasan kesehatan. Diperoleh data sebagai berikut: Umur saat menopause (tahun) n Mean SD minum pil 12 47,2 2,1 tdk. minum 19 47,5 2,1 (a) Apa desain studi ini? Jelaskan! (b) Apakah ada kesalahan fatal dalam studi ini? Jelaskan! 2.8. Sebuah penelitian dilakukan untuk mengetahui keefektivan helm dalam mencegah kerusakan di kepala akibat kecelakaan kendaraan bermotor. Diperoleh data 793 kecelakaan dalam periode 3 bulan sebagai berikut: Menggunakan helm kerusakan di kepala Ya Tidak Total Ya 17 218 235 Tidak 130 428 558 Total 147 646 793 Apa desain studi ini? Jelaskan! 2.9. Jelaskan perbedaan utama antara penelitian prospektif dengan retrospektif dan keuntungan kerugian masing-masing! 2.10. Jelaskan perbedaan utama antara penelitian observasional dengan dengan eksperimental dan keuntungan kerugian masing-masing! 2.11. Sebuah lembaga riset kesehatan akan melakukan penelitian tentang program atau aktivitas yang dapat menghentikan kebiasaan merokok. (a) Ajukan satu pertanyaan ilmiah (research question) yang relevan menurut saudara.
13
4 1
2
3
DMFT
5
6
2.9. Latihan dan Tugas
10
20
30
40
50
60
konsumsi gula (kg/orang/tahun)
Gambar 2.2: Plot antara banyaknya gigi yang rusak dengan konsumsi gula (b) Apa variabel independen atau paparan (exposure) utama penelitian tersebut? (c) Desain penelitian apa yang sesuai dengan tujuan penelitian di atas? Jelaskan! (d) Bagaimana seharusnya saudara memilih subyek dan mengukur (mengambil informasi) dari mereka sehingga tidak terjadi bias? 2.12. Gambar 2.2 menunjukkan hasil penelitian epidemiologi hubungan antara banyaknya gigi yang rusak dengan konsumsi gula pada 20 negara. Gigi yang rusak dinyatakan dengan skor DMFT (decayed, missing and filled teeth) yang diperoleh dari mean dari survei di masing-masing negara dengan responden anak usia 12 tahun. konsumsi gula diperoleh dari laporan tahunan pemerintah dibagi estimasi total populasi berdasarkan sensus. (a) Apakah dapat ditunjukkan dari gambar bahwa konsumsi gula mengakibatkan tingginya DMFT? Jelaskan! (b) Apa kelemahan studi seperti di atas dan berikan alternatif desain yang lebih tepat 2.13. Dalam suatu studi tentang faktor resiko untuk angina (terkait penyakit jantung) subyek diminta menjawab pertanyaan,’Apakah anda merokok’. Jawa-
2.9. Latihan dan Tugas
14
ban diklasifikasikan untuk setiap responden sebagai prokok dan bukan perokok. Kemudian subyek diklasifikasikan apakah pernah mengalami angina atau tidak. Setelah data dianalisis, tidak diperoleh hubungan antara merokok dengan pernah tidaknya mengalami angina. (a) Dari banyak studi yang telah dilakukan sebelumnya dapat ditunjukkan adanya bukti bahwa resiko mendapatkan angina meningkat seiring dengan naiknya konsumsi rokok seseorang. Jelaskan apa saja yang mungkin menyebabkan studi di atas gagal menunjukkan hubungan antara angina dengan merokok? (b) Apa alternatif desain studi yang lebih tepat? Jelaskan! 2.14. Untuk meneliti suatu permasalahan epidemiologi sering dilakukan lebih dari satu studi yang mana variabel utamanya sama namun populasi dan setting studinya mungkin berbeda. Apakah ada keuntungan yang diperoleh dari banyak studi tersebut untuk menjawab satu permasalahan yang sama dalam epidemiologi? Jelaskan!
3 Statistik dan Ukuran dalam Epidemiologi 3.1 Tujuan Pembelajaran Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Menggunakan ukuran statistik yang tepat untuk suatu permasalahan dalam epidemiologi 2. Menginterpretasikan hasil hitungan ukuran statistik 3. Menjelaskan model yang mendasari prevalensi dan insidensi 4. Menggunakan likelihood ratio test sebagai alternatif inferensi untuk model prevalensi dan insidensi 5. Menggunakan ukuran faktor yang tepat untuk suatu permasalahan dengan datanya 6. Menginterpretasikan hasil hitungan ukuran faktor
3.2 Prevalensi dan insidensi Definisi sehat menurut WHO adalah: health is a state of complete physical, mental, and social well-being and not merely the absence of disease or infirmity. Definisi ini cukup sulit direalisasikan terutama pada definisi dan ukuran
15
16
3.2. Prevalensi dan insidensi
well-being. Definisi yang lebih praktis yang banyak digunakan oleh epidemiolog adalah ”ada” atau ”tidak ada” penyakit 1 . Statistik atau ukuran paling dasar yang sering digunakan untuk melihat besarnya permasalahan dalam epidemiologi adalah banyaknya kejadian atau frekuensi kejadian (sakit, meninggal, dsb.). Namun ukuran ini sangat bergantung pada besar populasi dan lama periode pengamatan. Ukuran yang tidak bergantung pada besar populasi dan lama periode pengamatan yang banyak digunakan adalah prevalensi (prevalence) dan insidensi (incidence) Prevalensi adalah banyaknya subyek yang mengalami kejadian tertentu atau menderita penyakit tertentu pada suatu waktu tertentu. Prevalensi dirumuskan sebagai: P =
d , N
(3.1)
dengan P adalah prevalensi; d adalah banyaknya subyek yang mengalami kejadian tertentu atau menderita penyakit tertentu pada suatu waktu tertentu; N adalah banyaknya subyek pada suatu waktu tersebut. Insidensi adalah banyaknya subyek yang mengalami kejadian baru atau mendapatkan penyakit baru dalam suatu interval waktu tertentu. Jenis ukuran insidensi yang sering dipakai adalah insidensi kumulatif IK dan tingkat insidensi (incidence rate)I. IK dirumuskan sebagai: IK =
d , N0
(3.2)
dengan IK adalah insidensi kumulatif; d adalah banyaknya subyek yang mengalami kejadian tertentu atau menderita penyakit tertentu dalam suatu interval waktu tertentu; N0 adalah banyaknya subyek yang belum mengalami kejadian tertentu atau menderita penyakit tertentu pada awal interval waktu tersebut. Jenis insidensi yang lain berdasarkan pada pengertian tingkat (rate), yaitu banyaknya perubahan kuantitatif yang terjadi yang terkait dengan waktu. Insidensi (Incidence rate) dirumuskan sebagai: I=
d , NT
(3.3)
dengan I adalah insidensi; d adalah banyaknya subyek yang mengalami kejadian tertentu atau menderita penyakit tertentu dalam suatu interval waktu tertentu; N T 1
Meskipun demikian penelitian dalam bidang Biostatistika dan Epidemiologi saat ini mengarah pada pengukuran hal-hal yang lebih soft daripada hanya sakit dan tidak sakit seperti well-being dan quality of life, dan seterusnya.
17
3.2. Prevalensi dan insidensi
naik karena
turun karena
durasi penyakit yg panjang pasien hidup lama insidensi meningkat in-migrasi kasus out-migrasi penduduk sehat in-migrasi orang yg rentan meningkatnya diagnosis
durasi penyakit yg pendek pasien hidup singkat insidensi menurun in-migrasi penduduk sehat out-migrasi kasus out-migrasi orang yg rentan meningkatnya kesembuhan
Gambar 3.1: Faktor-faktor yang mempengaruhi estimasi prevalensi (Beaglehole et al., 2000). adalah total waktu subyek yang belum mengalami kejadian tertentu atau menderita penyakit tertentu dalam interval waktu tersebut (sering juga disebut sebagai person-time atau risk-time) Istilah lain yang sering digunakan untuk insidensi adalah person-time incidence rate, instantaneous incidence rate, force of morbidity, incidence-density, hazard). Prevalensi sangat dipengaruhi oleh banyak faktor yang tidak berhubungan langsung dengan penyebab penyakit, misalnya in-migrasi dan out-migrasi dan perbaikan cara diagnosis (lihat Gambar 3.1). Oleh karena itu prevalensi tidak dianjurkan untuk menunjukkan kausalitas. Tapi prevalensi sangat membantu untuk menunjukkan besarnya masalah kesehatan. Prevalensi dan insidensi saling berkaitan, secara umum hubungannya dapat ditunjukkan seperti persamaan (3.4), asalkan prevalensi kecil dan tidak berubah menurut waktu. prevalensi ≈ insidensi × durasi
(3.4)
3.2.1 Model untuk Prevalensi Dasar analisis untuk prevalensi adalah Model Bernoulli (Lihat Gambar 3.2) yang mempunyai asumsi sebagai berikut :
18
3.2. Prevalensi dan insidensi
π
1−π
S
G
Gambar 3.2: Model Bernoulli. • tiap usaha (trial) menghasilkan satu dari dua hasil yang mungkin, dinamakan sukses (S) dan gagal (G); • peluang sukses, P (S) = π dan peluang gagal P (G) = 1 − π • usaha-usaha tersebut independen Fungsi probabilitas Bernoulli adalah P (X = x; π) = π x (1 − π)1−x ,
(3.5)
dengan π adalah probabilitas sukses dan x = 0, 1 (gagal, sukses). Dalam konteks Epidemiologi, definisi sukses misalnya terkena penyakit tertentu atau meninggal. Untuk melakukan inferensi berdasarkan model ini dapat digunakan fungsi likelihood berdasarkan data yang diperoleh. Contoh 3.1 Dari n = 10 orang diketahui outcome sukses (S) dan gagal (G) SSGSGGGSGG (misalnya sukses adalah terkena penyakit tertentu dan gagal adalah tidak terkena penyakit tertentu). Seberapa mungkin data ini berasal dari model binomial dengan (i) π = 0,1; (ii) π = 0,5? Jawab: (i) π = 0,1: L(π | data) = ππ(1 − π)π(1 − π)(1 − π)(1 − π)π(1 − π)(1 − π) = 0,14 × 0,96 = 5,31 × 10−5 (ii) π = 0,5 L(π | data) = ππ(1 − π)π(1 − π)(1 − π)(1 − π)π(1 − π)(1 − π) = 0,54 × 0,56 = 9,77 × 10−4
19
0.0008 0.0004
L(0.5)
0.0000
Likelihood
0.0012
3.2. Prevalensi dan insidensi
L(0.1) 0.0
0.2
0.4
0.6
0.8
1.0
π
Gambar 3.3: Fungsi likelihood untuk data biner SSGSGGGSGG dengan π = 0,1 dan π = 0,5. Terlihat bahwa likelihood untuk π = 0,5 lebih besar daripada π = 0,1 sehingga dapat disimpulkan bahwa data lebih mungkin berasal dari model Bernoulli dengan π = 0,5 daripada π = 0,1 (Lihat Gambar 3.3). Nilai maksimum likelihood untuk data ini diperoleh pada π = 0,4 (Gambar 3.4). Nilai inilah yang sebenarnya paling didukung oleh data. Cara seperti ini dikenal dalam Statistika sebagai cara untuk mencari estimator dengan Metode Maximum Likelihood.
Inferensi untuk prevalensi dapat dilakukan berdasarkan tiga prinsip yaitu interval konfidensi (confidence interval), menurut teori frequentist; supported range untuk parameter berdasarkan likelihood ratio menurut teori likelihood; dan credible interval menurut teori Bayesian (Clayton and Hills, 1993). Metode yang paling sering digunakan dan diterima di komunitas peneliti di bidang epidemiologi adalah interval konfidensi menggunakan pendekatan Teorema Limit Sentral. Dalam perkembangannya kedua metode yang lain mulai berkembang dan mendapatkan perhatian.
20
0.0004
0.0008
0.00119
0.0000
Likelihood
0.0012
3.2. Prevalensi dan insidensi
0.0
0.2
0.4
0.6
0.8
1.0
π
Gambar 3.4: Maksimum Likelihood untuk data biner SSGSGGGSGG adalah pada π = 0,4.
3.2.2 Model untuk Insidensi Model untuk insidensi kumulatif pada prinsipnya sama seperti prevalensi, yaitu berdasarkan pada model Bernoulli. Di sini akan dibahas model untuk insidensi, khususnya incidence rate (3.3). Pada bagian sebelumnya, prevalensi dapat dipandang sebagai eksperimen Bernoulli, dengan sukses adalah kejadian yang menjadi perhatian, seperti sakit dan lainnya. Model ini dapat dikembangkan untuk insidensi. Dalam insidensi, khususnya incidence rate (3.3), seorang individu diamati dalam suatu periode waktu tertentu. yang dapat dibagi dalam beberapa interval. Misalnya, seseorang yang diamati selama 3 tahun dapat dibagi menjadi 3 satu tahun interval waktu pengamatan. Pada Gambar 3.5 seseorang diamati sampai M (meninggal) yang juga merupakan titik akhir (end-point) pengamatan, selama 3 tahun. Apabila dalam 3 tahun tersebut probabilitas meninggal sama, misalnya π, maka model yang dapat digunakan adalah Bernoulli seperti yang telah dibahas di muka. Namun apabila dalam setiap interval waktu probabilitas meninggal berbeda, misalnya π1 , π2 , π3 seperti terlihat pada Gambar, maka probabilitas M untuk tiap akhir interval akan berbeda dan merupakan probabilitas bersyarat. Sebagai contoh pada Gambar 3.6 diketahui nilai π1 , π2 , π3 . Probabilitas
21
3.2. Prevalensi dan insidensi
M
π1 M 1−
π2
M
π1
H
1−
π3 π2
3
1
H
1−
π3
H
5
Gambar 3.5: Insidensi sebagai satu urutan beberapa model probabilitas biner, dengan sukses M (mati) dan gagal H (hidup). meninggal pada akhir tahun pertama adalah 0,3. Probabilitas meninggal pada akhir tahun kedua merupakan probabilitas bersyarat, karena untuk meninggal pada akhir tahun kedua individu ini harus hidup pada akhir tahun pertama, sehingga probabilitasnya adalah 0,7 × 0,2 = 0,14. Demikian pula untuk probabilitas meninggal pada akhir tahun ketiga, 0,7 × 0,8 × 0,1= 0,056. Selanjutnya, untuk interval yang semakin sempit, probabilitas kondisional (untuk M) menjadi semakin kecil pula, dan konvergen ke hazard rate (force of mortality) P (t ≤ T < t + h | T ≥ t) (3.6) h→0 h Likelihood untuk λ dapat diturunkan dari likelihood binomial dengan menganggap bahwa probabilitas sukses adalah λh dengan h kecil, λ = lim
L(λ) = λD exp(−λY )
(3.7)
dengan D adalah banyaknya kejadian, Y adalah total waktu observasi. Log-likelihood untuk λ ℓ(λ) = D log(λ) − λY
(3.8)
Persamaan (3.7) dan (3.8) adalah fungsi likelihood dan log-likelihood untuk distribusi Poisson. Dapat dengan mudah ditunjukkan bahwa penduga untuk λ adalah ˆ=D (3.9) λ Y
22
3.2. Prevalensi dan insidensi
M
0,3 M 0,2 0,7
M 0,1
H 0,8
H 0,9
H 3
1
5
Gambar 3.6: Contoh satu urutan beberapa model probabilitas biner dan penghitungan probabilitas bersyarat). Contoh 3.2 Misalkan ada 7 observasi dengan total waktu observasi 500 orang-tahun (person-years). Log-likelihood untuk λ ℓ(λ) = 7 log(λ) − 500λ
−37.5 −38.5 −39.5
log likelihood
Nilai maksimum untuk fungsi Log-likelihood ini diperoleh pada λ = 0,014 (Gambar 3.7)
0.005
0.010
0.015
0.020
0.025
0.030
λ
Gambar 3.7: Log-likelihood untuk λ dan nilai maksimumnya
23
3.3. Faktor Resiko
Contoh 3.3 Sebuah studi tentang akibat buruk merokok bagi kesehatan dilakukan di Inggris pada tahun 1951. Diperoleh data berupa kematian akibat penyakit jantung koroner dikategorikan menurut umur dan status merokok (Tabel 3.1).
Tabel 3.1: Kematian akibat jantung koroner menurut umur dan status merokok Kel. Umur 35 – 44 45 – 54 55 – 64 65 – 74 75 – 84
perokok kematian person-years 32 52407 104 43248 206 28612 186 12663 102 5317
bukan perokok kematian person-years 2 18790 12 10673 28 5710 28 2585 31 1462
Insidensi untuk kematian akibat penyakit jantung koroner dapat dihitung menggunakan rumus (3.9). Insidensi keseluruhan tanpa melihat status merokok dan usia adalah ˆ = λ =
32 + 104 + 206 + . . . + 31 52407 + 43248 + 28612 + . . . + 1462 731 = 0,004 181467
karena bilangan insidensi biasanya kecil, nilai estimasinya dikalikan bilangan yang agak besar misalnya 1000. Jadi insidensi kematian di atas adalah 4 kematian per 1000 orang. Dengan cara yang sama insidensi untuk tiap tingkat faktor resiko dapat dihitung. Misalnya insidensi dalam kelompok perokok adalah ˆ1 = λ =
32 + 104 + 206 + 186 + 102 52407 + 43248 + 28612 + 12663 + 5317 630 = 4,43 per 1000 orang, 142247
ˆ 0 =101/39220= 2,58 per 1000 orang. Kematian dan untuk kelompok bukan perokok λ dalam kelompok perokok terlihat lebih tinggi.
3.3 Faktor Resiko Bagian di muka membahas statistik dan ukuran tanpa memandang adanya faktor atau variabel yang mempengaruhi statistik atau ukuran tersebut. Dengan kata lain dalam notasi statistika di muka, sementara hanya dilihat variabel Y saja tanpa melihat adanya X (variabel independen, penjelas, paparan). Dalam bagian ini akan dibahas statistik dan ukuran yang melibatkan pengaruh faktor. Ukuran
24
3.3. Faktor Resiko
ini, seperti yang akan dijelaskan lebih lanjut, sangat bergantung pada pada desain penelitian yang digunakan. Beberapa ukuran yang dapat digunakan untuk melihat faktor resiko diantaranya: • Selisih resiko (risk difference) • Rasio resiko (risk ratio) • Odds ratio Misalkan π1 adalah probabilitas atau resiko untuk subyek yang terpapar dan π2 untuk subyek yang tidak terpapar. Sebagai contoh, π1 adalah probabilitas subyek terkena kanker paru jika diketahui subyek merokok, dan π1 adalah probabilitas subyek terkena kanker paru jika diketahui subyek tidak merokok. Selisih resiko, rasio resiko dan odds ratio akan dijelaskan berdasarkan π1 dan π2 di atas. Selisih resiko didefinisikan sebagai RD = π1 − π2 .
(3.10)
yaitu selisih antara dua probabilitas π1 dan π2 . Karena π1 = RD + π2 , selisih resiko mengukur perubahan pada skala aditif. Jika RD > 0, paparan berkaitan dengan kenaikan probabilitas terkena penyakit. Sebaliknya jika RD < 0, paparan berkaitan dengan penurunan probabilitas terkena penyakit; dan jika RD = 0, paparan tidak berkaitan dengan penyakit tersebut. Rasio resiko didefinisikan sebagai rasio antara dua probabilitas, yaitu RR = π1 /π2 .
(3.11)
Karena π1 = RRπ2 , rasio resiko mengukur perubahan pada skala multiplikatif. Jika RR > 1, paparan berkaitan dengan kenaikan probabilitas terkena penyakit. Jika RR < 1, paparan berkaitan dengan penurunan probabilitas terkena penyakit; dan jika RR = 1, paparan tidak berkaitan dengan penyakit tersebut. Odds merupakan representasi alternatif untuk probabilitas. Untuk probabilitas π 6= 1, odds ω didefinisikan sebagai ω=
π . 1−π
(3.12)
Pernyataan odds dalam penggunaan sehari-hari biasanya digunakan untuk mengekspresikan kebolehjadian, misalnya dalam suatu pertandingan olahraga: ”peluang saya menang melawan dia 60:40”, artinya peluang saya menang adalah 0,6. Meskipun probabilitas dan odds merepresentasikan informasi yang sama, nilai rentang ω tidak sama dengan π, yaitu 0 ≤ π ≤ 1 sedangkan ω > 0. Bila
3.4. Inferensi untuk RD, RR dan OR
25
Tabel 3.2: Data dan Model Probabilitas untuk Desain Cohort (b) Model probabilitas (a) Data pada tabel 2 × 2 D D E 1 2 E 1 2 1 n11 n12 N1 1 π1 1 − π1 1 2 n21 n22 N2 2 π2 1 − π2 1 didefinisikan ω1 = π1 /(1 − π1 ) dan ω2 = π2 /(1 − π2 ), Odds ratio adalah rasio antara dua odds ω1 dan ω2 OR =
π1 (1 − π2 ) ω1 . = ω2 π2 (1 − π1 )
(3.13)
Odds ratio mirip dengan rasio resiko RR dalam hal perubahannya yang diukur secara multiplikatif. Interpretasi nilai OR juga ekivalen dengan RR.
3.4 Inferensi untuk RD, RR dan OR Untuk desain cohort, semua ukuran faktor resiko RD, RR dan OR dapat diestimasi dari data dan dapat diinterpretasikan. Data dan model probabilitasnya dapat digambarkan seperti pada Table 3.2. Pada tabel tersebut E adalah variabel paparan (exposure) atau faktor resiko yang diteliti dan D adalah outcome. Nilai E = 1 menunjukkan adanya paparan (exposed) dan E = 2 menunjukkan tidak adanya paparan (non-exposed). Misalkan variabel paparan yang akan diteliti adalah status merokok, E = 1 adalah merokok dan E = 2 tidak merokok. Nilai D = 1 menunjukkan adanya disease atau outcome yang menjadi perhatian, dan D = 2 menunjukkan tidak adanya disease. Misalnya D = 1 adalah terdiagnosis kanker paru, dan D = 2 tidak terdiagnosis kanker paru. Untuk desain cohort π1 adalah probabilitas mendapatkan disease untuk kelompok yang diketahui sebelumnya sudah mendapatkan paparan, atau dengan notasi probabilitas π1 = P (E = 1 | D = 1). Sedangkan π2 adalah probabilitas mendapatkan disease untuk kelompok yang diketahui sebelumnya tidak mendapatkan paparan, atau π2 = P (E = 1 | D = 2). Total baris untuk model probabilitas adalah satu karena kelompok paparan diambil dari dua populasi yang berbeda, yaitu kelompok exposed E = 1, dan kelompok non-exposed E = 2. Estimasi titik untuk π1 dan π2 adalah π ˆ1 = n11 /N1 π ˆ2 = n21 /N2
(3.14) (3.15)
3.4. Inferensi untuk RD, RR dan OR
26
Estimasi titik untuk RD, RR dan OR dapat diperoleh dengan mengganti π1 dan π2 pada persamaan (3.10), (3.11) dan (3.13) dengan π ˆ1 dan π ˆ2 . Selisih resiko RD pada dasarnya adalah selisih dua sampel independen yang berdistribusi Binomial. Proporsi sampel πˆi mempunyai harga harapan πi dan variansi πi (1 − πi )/Ni , dengan i = 1, 2. Sehingga estimasi titik untuk RD adalah d=π RD ˆ1 − π ˆ2
yang mempunyai galat standar (standard error) π (1 − π ) π (1 − π ) 1/2 2 2 1 1 d + σ RD = N1 N2
(3.16)
(3.17)
Interval konfidensi (1 − α)100% untuk RD dapat dihitung dengan menggunakan pendekatan Normal sebagai berikut: d d RD ± Zα/2 σ ˆ RD , (3.18) d namun dengan πi diganti π d adalah σ RD ˆi . dengan σ ˆ RD Estimasi titik untuk RR dapat diturunkan dari (3.11), (3.14) dan (3.15) yaitu ˆ1 d=π RR π ˆ2
d sangat menceng (skewed), sehingga pendekatan NorDistribusi untuk RR d Galat standar untuk mal lebih baik jika menggunakan transformasi log dari RR. d log RR adalah 1/2 1 − π 1 − π2 1 d + (3.19) σ log RR = π 1 N1 π2 N2 Diperoleh interval konfidensi (1 − α)100% untuk log RR d ± Zα/2 σ log RR d log RR
(3.20)
Karena interval ini pada skala transformasi log, untuk interpretasinya harus dikembalikan pada skala asal dari RR dengan mengambil eksponensial, baik untuk batas interval bawah maupun atas. Seperti halnya RR, estimasi titik untuk OR dapat diturunkan dari (3.13), (3.14) dan (3.15) yaitu ˆ1 (1 − π ˆ2 ) d = π OR π ˆ2 (1 − π ˆ1 ) n11 n22 , = n12 n21
(3.21)
27
3.4. Inferensi untuk RD, RR dan OR
Untuk menghindari masalah bila ada nij = 0 dapat digunakan allternatif untuk (3.21), d = (n11 + 0,5)(n22 + 0,5) OR (n12 + 0,5)(n21 + 0,5)
(3.22)
d ini juga sangat menceng seperti RR, d sehingga diperlukan Distribusi untuk OR transformasi log untuk membentuk interval konfidensi OR. d adalah Estimasi galat standar untuk log OR 1/2 1 1 1 1 d = , (3.23) + + + σ ˆ log OR n11 n12 n21 n22 c adalah Sehingga interval konfidensi (1 − α)100% untuk log OR d ± Zα/2 σ d log OR ˆ log OR
(3.24)
Interpretasinya harus dikembalikan pada skala asal dari OR dengan mengambil eksponensial baik untuk batas bawah maupun batas atas dari interval konfidensi OR. Contoh 3.4 Diperoleh data tentang hubungan antara penyakit jantung koroner dengan tekanan pekerjaan seperti pada Tabel 3.3. Tabel 3.3: Data studi tentang hubungan penyakit jantung koroner dengan tekanan pekerjaan Tertekan krn. Pekerjaan Ya Tidak
Penyakit jantung koroner Ya Tidak 97 307 200 1409
Total 404 1609
Estimasi titik resiko terkena penyakit jantung koroner untuk masing-masing kelompok orang yang tertekan karena pekerjaan dan yang tidak tertekan adalah π ˆ1 = 97/404 = 0,240
dan
π ˆ2 = 200/1609 = 0,124
d dapat dihitung menggunakan π Estimasi titik untuk RR dan standard error dari log RR ˆ1 dan π ˆ2 , yaitu: d = π 1 − π1 1 − π2 1/2 RR ˆ1 /ˆ π2 d σ log RR = + π1 N 1 π2 N 2 = 0,240/0,124 1 − 0,124 1/2 1 − 0,240 = 1,932 + = 0,240(404) 0,124(1609) = 0,1105
28
3.4. Inferensi untuk RD, RR dan OR
n o d − 1,96 × σ log RR d Batas bawah interval konfidensi 95% adalah exp log(RR) = n o d + 1,96 × σ log RR d 1,555; dan batas atas interval exp log(RR) = 2,399. Diperoleh estimasi RR dan interval konfidensinya adalah : 1,932 (1,555 — 2,399 ). d : Estimasi titik untuk OR dan σ log OR ˆ1 /(1 − π ˆ1 ) 1 1 1 1/2 1 d = π OR d + + + σ ˆ log OR = π ˆ2 /(1 − π ˆ2 ) n11 n12 n21 n22 1/2 = 0,316/0,142 1 1 1 1 = + + + = 2,225 97 307 200 1409 =n 0,1388 o d − 1,96 × σ log OR d Batas bawah interval konfidensi 95% adalah exp log(OR) = n o d + 1,96 × σ log OR d 1,696; dan batas atas interval exp log(OR) = 2,922. Diperoleh estimasi OR dan interval konfidensinya adalah : 2,225 (1,696 — 2,922 ). Estimasi titik untuk RD adalah d = π RD ˆ1 − π ˆ2 = 0,240 − 0,124
= 0,116
π1 (1 − π1 ) π2 (1 − π2 ) 1/2 d + σ RD = N1 N2 = 0,0228
d = 0,071; dan batas atas Batas bawah interval konfidensi 95% (ˆ π1 − π ˆ2 ) − 1,96 × σ RD d = 0,161. Diperoleh estimasi RD dan interval intervalnya (ˆ π1 − π ˆ2 ) + 1,96 × σ RD konfidensinya adalah : 0,116 (0,071 — 0,161 ).
Pada desain case-control, Data dan model probabilitasnya dapat digambarkan seperti pada Tabel 3.4. Dalam tabel ini M1 dan M2 adalah banyaknya sampel yang diperoleh dari kelompok sampel yang mendapatkan disease (D = 1) dan dari kelompok yang tidak mendapatkan disease (D = 2). Dari masing-masing kelompok diambil informasi secara retrospektif apakah sampel telah terpapar (E = 1 atau tidak E = 2. Model probabilitasnya juga berbeda dengan desain Cohort karena probabilitas kondisionalnya adalah terhadap disease D bukan terhadap paparan E, yaitu probabilitas φ1 = P (E = 1 | D = 1) dan φ2 = P (E = 1 | D = 2). Berdasarkan model ini, tidak mungkin diperoleh estimasi untuk πi , i = 1, 2 seperti pada desain Cohort. Sehingga estimasi untuk RD dan RR tidak dapat diperoleh. Bagaimana dengan OR? Apabila estimasi OR dihitung untuk odds paparan dalam kelompok diseased dibagi odds paparan dalam kelompok non-
29
3.5. Latihan
Tabel 3.4: Data dan Model Probabilitas untuk Desain Case-Control. (a) Data pada tabel 2 × 2 D E 1 2 1 n11 n12 2 n21 n22 M1 M2
(b) Model probabilitas D E 1 2 1 φ1 φ2 2 1 − φ1 1 − φ2 1 1
diseased maka dapat diperoleh ˆ ˆ g = φ1 (1 − φ2 ) OR φˆ2 (1 − φˆ1 ) n11 n22 = , n12 n21
(3.25)
g = OR, d yang implikasinya dengan φˆ1 = n11 /M1 dan φˆ2 = n12 /M2 . Ternyata OR adalah OR dapat diestimasi untuk desain Case-Control. Pada desain cross-sectional statistik yang dapat diinterpretasikan dengan valid hanyalah prevalensi, oleh karena itu desain cross-sectional sering disebut studi prevalensi. Meskipun RD, RR dan OR dapat dihitung dari data yang diperoleh dari studi cross-sectional, kesimpulan atau interpretasi yang diperoleh kemungkinan akan tidak valid.
3.5 Latihan 3.1. Hitunglah odds S (Sukses) terhadap G (Gagal), dengan sukses misalnya adalah terkena suatu penyakit dan gagal adalah tidak terkena suatu penyakit), bila probabilitas S diketahui adalah: (a) 0,75 (b) 0,50 (c) 0,25 3.2. Hitunglah probabilitas sukses S bila diketahui odds S terhadap gagal G adalah: (a) 0,3 (b) 3,0 3.3. Diketahui dari 8 orang pasien kanker rahim, 2 pasien meninggal dunia. Bila kita tertarik pada parameter π, yaitu probabilitas pasien meninggal, nilai manakah yang lebih didukung oleh data, π = 0,2 atau π = 0,6? Jelaskan! Carilah estimator untuk parameter π! 3.4. Diketahui data penderita tuberkulosis (tb) di suatu sekolah sebagai berikut:
30
3.5. Latihan
Paparan banyaknya siswa banyaknya siswa yang diperiksa yang posisif tb tinggi 129 63 rendah 325 36 Hitung risk difference, risk ratio dan odds ratio untuk paparan tinggi beserta interval interval konfidensinya. Interpretasikan hasilnya. 3.5. Merujuk soal no 2.8 (halaman 12), hitung risk difference, risk ratio dan odds ratio untuk paparan tinggi beserta interval interval konfidensinya. Interpretasikan hasilnya. 3.6. Suatu studi dilakukan untuk menguji hipotesis yang menyatakan bahwa ada hubungan antara konsumsi teh dan sindroma pra-menstruasi. Satu grup yang terdiri dari 120 pelajar dan 80 pekerja pabrik menjadi subyek penelitian dan mengisi kuesioner tentang sindroma pra-menstruasi. Prevalensi sindroma pra-menstruasi di antara pelajar adalah 40% dan di antara pekerja pabrik adalah 75%. Berapa subyek dalam studi ini yang mengalami sindroma pra-menstruasi? 3.7. Buktikan persamaan (3.21) pada halaman 26 dan (3.25) pada halaman 29!
4 Perancuan dan Interaksi 4.1 Tujuan Pembelajaran Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Menjelaskan pengertian perancuan (confounder) dan interaksi dan menyebutkan contohnya dalam penelitian epidemiologi 2. Mengidentifikasi adanya perancuan dalam suatu permasalahan atau data penelitian epidemiologi 3. Mengidentifikasi adanya interaksi dalam suatu permasalahan atau data penelitian epidemiologi
4.2 Konsep dan Identifikasi Perancuan Variable perancu adalah variabel yang memenuhi dua kondisi: • merupakan faktor resiko • mempunyai hubungan dengan variabel paparan tapi bukan merupakan konsekuensi dari variabel paparan Secara konseptual perancuan dapat digambarkan seperti pada Gambar 4.1 dan 4.2. Pada gambar pertama variabel F mempengaruhi baik variabel D maupun E, sedangkan pada gambar kedua F tidak mempengaruhi D dan E sekaligus. Contoh 4.1 Manula yang mengalami kecelakaan, seperti terjatuh, seringkali menjadi tidak dapat bangun dan bergerak dalam waktu lama. Hal ini dapat mengakibatkan bedsores, yaitu luka
31
32
4.2. Konsep dan Identifikasi Perancuan
Tabel 4.1: Data Bedsores study Meninggal Bedsore 79 tidak Bedsore 286 Total 365
E
E
hidup 745 8.290 9.035
Total 824 8.576 9.400
E
D
D
F
F
D
F
Gambar 4.1: Variabel F adalah perancu antara D (variabel respon) dengan E (variabel paparan). Tanda → pengaruh satu arah; ↔ pengaruh dua arah
E
E D
D
F
F
E
E D
F
D F
Gambar 4.2: Variabel F bukan perancu antara D dengan E (variabel respon) dengan E (variabel paparan). Tanda → pengaruh satu arah; ↔ pengaruh dua arah
33
4.2. Konsep dan Identifikasi Perancuan
Tabel 4.2: Data Bedsores study distratifikasi menurut tingkat keparahan Tingkat keparahan tinggi akibat penyakit lain: Meninggal hidup Total Bedsore 55 51 106 tidak Bedsore 5 5 10 Total 60 56 116 Tingkat keparahan rendah akibat penyakit lain: Meninggal hidup Total Bedsore 24 694 718 tidak Bedsore 281 8.285 8.566 Total 305 8.979 9.284 pada kulit yang dapat berlanjut ke otot dan tulang dan dapat berakibat fatal. Diperoleh data seperti pada Tabel 4.1. Rasio resiko dari data ini adalah 79/824 = 2,9 286/8576
RR =
Nilai RR tersebut cukup tinggi menunjukkan bahwa bedsore mungkin dapat mengakibatkan kematian. Untuk melihat apakah ada variabel perancu pada data ini diperoleh data seperti pada Tabel 4.2. Data distratifikasi menurut tingkat keparahan penyakit lain. Dari stratifikasi ini diperoleh RR untuk masing-masing tingkat adalah RR =
55/106 = 1,04 5/10
untuk tingkat keparahan tinggi dan RR =
24/718 = 1,02 281/8566
untuk tingkat keparahan rendah. Dari hasil stratifikasi ini terlihat bahwa bedsore tidak terlalu berpengaruh terhadap kematian karena nilai RR cukup dekat dengan satu. Artinya bahwa tingkat keparahan merupakan variabel perancu dalam hubungan antara bedsore dengan kematian.
Contoh 4.2 Contoh ini berkebalikan dengan contoh sebelumnya. Ketika tidak ada confounder, terlihat tidak ada pengaruh faktor resiko (Tabel 4.3). Namun ketika di-stratifikasi menurut confounder, terlihat ada pengaruh faktor resiko terhadap disease.
4.3. Metode Standarisasi dan Mantel-Haenszel
34
Tabel 4.3: Data faktor resiko dengan disease +
E E−
D+ 240 200
D− 420 350
Total 660 π ˆ1 = 0,3636 550 π ˆ2 = 0,3636 RR = π ˆ1 /ˆ π2 = 1
Tabel 4.4: Data faktor resiko dengan disease distratifikasi menurut variabel lain (confounder)
E+ E−
E+ E−
Variabel F = 0: D+ D− Total 135 415 550 π ˆ1 = 0,2455 5 45 50ˆ π2 = 0,1000 RR = π ˆ1 /ˆ π2 = 2,45 D+ 105 195
Variabel F = 1: D− Total 5 110 π ˆ1 = 0,9545 305 500 π ˆ2 = 0,3900 RR = π ˆ1 /ˆ π2 = 2,45
4.3 Metode Standarisasi dan Mantel-Haenszel Metode standarisasi digunakan untuk mengatasi confounding dengan cara membandingkan atau melakukan standarisasi dengan suatu populasi pembanding (standar). Metode ini biasa digunakan dalam Demografi. Variabel atau faktor yang biasanya digunakan dalam standarisasi adalah usia dan jenis kelamin. Dikenal dua jenis standarisasi yaitu (1) standarisasi langsung (direct standardization); dan (2) standarisasi tidak langsung (indirect standardization)
4.3.1 Standarisasi Langsung Standarisasi langsung dibentuk dari hasil estimasi banyaknya kejadian (event) yang diperoleh dari model (distribusi) populasi studi (study population), dikenakan pada populasi standar (standard/reference population). Variabel yang biasa digunakan untuk standarisasi adalah kelompok umur. Data yang diperlukan untuk penghitungan standarisasi dapat disusun seperti pada Tabel 4.5, dengan ni adalah banyaknya kejadian (misalnya kematian) dalam interval (kelompok umur) i untuk populasi studi; Ni adalah ukuran (banyaknya) populasi studi dalam interval i dan Mi : ukuran populasi pembanding. Standarisasi langsung untuk rate banyaknya kejadian adalah
35
4.3. Metode Standarisasi dan Mantel-Haenszel
Tabel 4.5: Data untuk Standarisasi Kel. umur 1 2 .. .
Populasi Populasi studi pembanding n1 M1 N1 n2 M2 N2 .. .. . .
i .. .
ni Ni
.. .
Mi .. .
k
nk Nk
Mk
Pk
ni i=1 Ni Mi
r = C Pk
i=1 Mi
,
(4.1)
dengan C suatu konstanta yang digunakan agar bilangan yang diperoleh tidak terlalu kecil. Biasanya C = 1000, sehingga satuan untuk r adalah banyaknya kejadian per 1000 orang. Deviasi standar untuk r adalah s k 2 X C Mi (4.2) SE(r) = Pk ni Ni i=1 Mi i=1
yang dapat digunakan untuk menghitung interval konfidensi 95%, yaitu: r±1,96× SE(r).
4.3.2 Standarisasi Tidak Langsung Metode ini menggunakan dua tahapan proses. Pertama model dari populasi pembanding yang biasanya berupa ASDR (Age Specific Deaths Rate) dikenakan pada studi populasi. Untuk penghitungan ini diperlukan informasi banyaknya kejadian (kematian) di populasi pembanding (dinotasikan sebagai mi ) karena ASDR = mi /Mi . Harga harapan banyaknya kematian Pk dalam populasi studi berdasarkan model populasi pembanding adalah E = i=1 Ni (mi /Mi ). Diperoleh standardized event ratio (ser) atau standardized mortality ratio (smr) jika event yang menjadi perhatian adalah mortalitas sebagai berikut, Pk ni (4.3) smr = i=1 , E
36
4.3. Metode Standarisasi dan Mantel-Haenszel
Tabel 4.6: Data Tabel 2 × 2 untuk strata ke-i Status Sakit/Event D+ D− E+ ai bi − E ci di Total ai + ci bi + di dengan standard error SE(smr) =
Total ai + b i ci + di ni
qP ( ki=1 ni )
(4.4) E Pada tahapan kedua dapat dihitung standarisasi tidak langsung sebagai berikut Pk mi rindirect = C × smr × Pki=1 , (4.5) i=1 M i
dengan standard error
SE(rindirect ) = C ×
4.3.3 Mantel-Haenszel
qP ( ki=1 ni ) E
Pk
× Pki=1
mi
i=1 M i
(4.6)
Untuk data yang distratifikasi menurut variabel perancu, dapat dihitung odds ratio gabungan dari masing-masing strata. Estimator ini disebut Mantel-Haenszel odds ratio yang ! Pk ˆ MH = Pi=1 ai di /ni Ψ (4.7) k i=1 bi ci /ni
ˆ MH ) adalah dengan standar error untuk log(Ψ s P P P P P S + Q R Qi Si P R i i i i i i ˆ MH )) = P P P + + P 2 SE(log(Ψ 2 2( Ri ) 2 Ri Si 2( Si )
untuk setiap stratum i,
Pi = (ai + di )/ni , Ri = ai di /ni ,
Qi = (bi + ci )/ni , Si = bi ci /ni ,
(4.8)
37
4.4. Interaksi
+
(b) interaksi unilateral
E B=
−
E B=
B = E−
E
B=E
−
A = E−
(d) interaksi antagonis peluang disease
+
=
A = E+
A = E−
(c) interaksi sinergis peluang disease
E B=
A = E+
A = E−
B
+
peluang disease
peluang disease
(a) tidak ada interaksi
A = E+
+
E
= B B= E−
A = E−
A = E+
Gambar 4.3: Jenis Interaksi untuk Dua Faktor Resiko A dan B ˆ MH ) adalah Interval konfidensi 95% untuk log(Ψ ˆ MH ) ± 1,96 SE(log(Ψ ˆ MH )), log(Ψ
(4.9)
ˆ MH sendiri dapat dihitung dengan mengambil niInterval konfidensi 95% untuk Ψ lai eksponensial dari masing-masing batas interval tersebut.
4.4 Interaksi Dua faktor dikatakan berinteraksi bila efek satu faktor terhadap suatu kejadian penyakit berbeda tingkatnya untuk beberapa strata atau nilai yang berbeda dari faktor yang lain. Istilah lain untuk interaksi yang lebih dikenal dalam epidemiologi adalah modifikasi efek (effect modification). Bila tidak ada interaksi, setiap faktor resiko akan mempunyai efek yang tetap (homogen) pada tingkat yang berbeda-beda dari faktor yang lain. Interaksi dan jenisnya dapat digambarkan seperti pada Gambar 4.3. Misalkan ada dua faktor A dan B yang menjadi perhatian dan masing-masing mempunyai dua tingkat faktor yaitu terpapar (exposed E + ) dan tidak terpapar (non-exposed E − ). Bila tidak ada interaksi antara faktor A dan B, peluang terjadinya disease (efek dari faktor) dari non-exposed ke exposed akan sama tingkat kenaikannya (Gambar 4.3 (a)). Untuk faktor B tidak terpapar (B = E − ), pengaruh faktor A akan naik dari ketika A = E − ke A = E + yang mana tingkat kenaikannya sama
38
4.4. Interaksi
(kemiringannya) untuk faktor B terpapar (B = E + ). Untuk interaksi unilateral (Gambar 4.3 (b)), efek dari faktor A ada jika faktor B terpapar (B = E + ). Namun bila B tidak terpapar faktor A tidak berpengaruh. Interaksi sinergis terjadi bila pengaruh faktor A searah atau sama-sama naik dari A = E − ke A = E + , tapi kenaikan akan makin besar bila ada B terpapar (B = E + ). Interaksi antagonis berlawanan dengan interaksi sinergis. Jenis interaksi variabel ini terjadi bila pengaruh faktor A menjadi berkebalikan ketika B berubah. Jika B tidak terpapar (B = E − ), pengaruh A akan menurun dari ketika tidak terpapar (A = E − ) ke terpapar (A = E + ). Sebaliknya jika B terpapar (B = E + ), pengaruh A akan naik. Untuk mengidentifikasi adanya interaksi, perlu dilakukan analisis baik secara deskriptif berupa diagram interaksi maupun dengan uji statistik. Pengetahuan tentang substansi variabel atau faktor yang diteliti sudah tentu diperlukan untuk identifikasi awal variabel atau faktor apa saja yang mungkin berinteraksi. Untuk menguji interaksi dapat digunakan statistik berdasarkan risk rasio (RR), risk difference (RD) maupun odds ratio (OR). Misalkan ada dua faktor A dan B seperti digunakan di atas. Untuk menyederhanakan notasi, terpapar oleh faktor A atau A = E + dituliskan sebagai A1 , tidak terpapar oleh faktor A atau A = E − dituliskan sebagai A0 , demikian pula untuk faktor B. Kemudian didefinisikan kombinasi dari faktor A dan B sebagai berikut A1 B1 , A1 B0 , A0 B1 dan A0 B0 . Notasi A1 B1 adalah terpapar baik oleh faktor A maupun B, kombinasi yang lain dapat diartikan dengan cara yang sama. Didefinisikan pula probabilitas kondisional mendapatkan penyakit (D+ ) dengan diberikan kombinasi faktor A dan B sebagai berikut: π11 = P (D+ | A1 B1 ) π01 = P (D+ | A0 B1 )
π10 = P (D+ | A1 B0 ) π00 = P (D+ | A0 B0 )
Empat macam resiko terkena penyakit dinyatakan sebagai probabilitas bersyarat terhadap kombinasi antara faktor A dan B ini dapat dilihat seperti pada Tabel 4.7 (a). Menggunakan RR (Tabel 4.7 (b)), faktor A dan B dikatakan tidak ada interaksi bila RRAB = RRA RRB , (4.10) dengan RRAB adalah risk ratio antara resiko mendapatkan penyakit jika terpapar oleh A dan terpapar B, dengan resiko mendapat penyakit jika tidak terpapar oleh A maupun B; atau RRAB = π11 /π00 . Dengan interpretasi yang sama didefinisikan pula RRA = π10 /π00 dan RRB = π01 /π00 . Pernyataan (??) dinamakan interaksi pada skala multiplikatif (interaction on multiplicative scale). Berdasarkan skala multiplikatif, tidak ada interaksi berarti rasio resiko paparan bersama A dan B sama dengan hasil kali rasio resiko masing-masing faktor.
39
4.5. Latihan
Tabel 4.7: Interaksi menurut RR, OR dan RD (a) Resiko, diketahui faktor A dan B faktor B − faktor A B = E B = E+ − A=E π00 π01 + A=E π10 π11
(b) Menggunakan RR faktor B faktor A B = E − B = E + A = E− 1 RRB + A=E RRA RRAB tdk ada interaksi: RRAB = RRA RRB
(c) Menggunakan OR faktor B faktor A B = E − B = E + A = E− 1 ORB + A=E ORA ORAB
(c) Menggunakan RD faktor B faktor A B = E − B = E+ A = E− 0 RDB + A=E RDA RDAB
tdk ada interaksi: ORAB = ORA ORB
tdk ada interaksi: RDAB = RDA + RDB
Pengujian interaksi secara multiplikatif dapat pula dilakukan menggunakan OR (Tabel 4.7 (c)) sebagai berikut ORAB = ORA ORB ,
(4.11)
dengan ORAB , ORA dan ORB didefinisikan dan diinterpretasikan serupa seperti RR di atas. Misalnya ORA = [π10 /(1 − π10 )]/[π00 /(1 − π00 )] adalah odds ratio antara odds mendapatkan penyakit jika terpapar oleh A dan tidak terpapar B, dengan odds mendapatkan penyakit jika tidak terpapar oleh A maupun B. Interaksi dapat pula terjadi pada skala aditif (interaction on additive scale) dengan menggunakan RD (Tabel 4.7 (d)). Dengan cara ini, faktor A dan B dikatakan tidak ada interaksi bila RDAB = RDA + RDB (π11 − π00 ) = (π10 − π00 ) + (π01 − π00 )
(4.12)
yaitu selisih resiko antara paparan bersama A dan B sama dengan total selisih resiko antara masing-masing faktor. Apabila faktor yang menjadi perhatian lebih dari dua maka diperlukan modelmodel regresi yang akan dibahas pada Bab-Bab selanjutnya.
4.5 Latihan 1. Diberikan tabel 2 × 2 seperti di bawah yang diperoleh dari studi prospektif dengan variabel paparan E dan variabel penyakit D.
40
4.5. Latihan
E+ E−
D+ 205 65
D− 76 116
(a) Stratifikasilah tabel di atas menjadi dua buah tabel 2 × 2 sedemikian sehingga variabel ketiga yang men-stratifikasi tabel di atas merupakan variabel confounder (berikan nama variabelnya F dan kategorinya F0 dan F1 ) (b) Hitunglah OR Mantel-Haenszel dari data tabel yang saudara buat di atas 2. Dalam suatu studi tentang faktor resiko suatu penyakit, variabel status merokok dan konsumsi lemak menjadi perhatian. Misalkan diperoleh data resiko relatif (RR) untuk kombinasi status merokok dan tingkat konsumsi lemak adalah sebagai berikut: konsumi status merokok lemak tidak pernah mantan ringan berat rendah 1 1.5 2.0 3.0 medium 1.2 1.8 2.4 3.6 tinggi 1.5 2.3 3.0 4.5 sangat tinggi 2.0 3.5 4.0 6.0 Dalam penelitian ini yang dianggap sebagai tingkat paparan yang terendah adalah tidak pernah merokok dan mengkonsumsi makanan rendah lemak, dan yang tertinggi adalah perokok berat dan menkonsumsi lemak sangat tinggi. Terlihat bahwa resiko semakin naik seiring dengan kenaikan tingkat paparan. Apakah data ini menunjukkan adanya perancuan (confounding)? Apakah data ini menunjukkan adanya interaksi antara konsumsi lemak dengan merokok kaitannya dalam mengakibatkan penyakit?
5 Model Linear Tergeneralisasi 5.1 Tujuan Pembelajaran Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Menjelaskan konsep Model Linear Tergeneralisasi (Generalized Linear Model) dan kaitannya dengan model statistika lain seperti Regresi Linear, ANAVA, Regresi Logistik dan Regresi Poisson. 2. Melakukan inferensi Regresi Logistik. 3. Melakukan inferensi Regresi Poisson. 4. Mengidentifikasi model yang tepat untuk permasalahan dalam epidemiologi dan penelitian kesehatan. 5. Memberi contoh model GLM yang lain selain Regresi Linear, ANAVA, Regresi Logistik dan Regresi Poisson.
5.2 Generalisasi Model Linear Model Linear yang sudah dikenal seperi Regresi Linear dan ANAVA juga beberapa metode regresi lain yang cukup populer seperti regresi logistik sebenarnya merupakan satu keluarga model regresi yang lebih luas yang dinamakan Model Linear Terumumkan (GLM :Generalized Linear Model). Ada tiga komponen utama yang membentuk GLM yaitu • Variabel random Y1 , Y2 , . . . , Yn dengan E(Yi ) = µi dengan fungsi densitas dari keluarga eksponensial (exponential family) 41
42
5.2. Generalisasi Model Linear
• Prediktor linear ηi = x i β = β0 + β1 xi1 + . . . + βp xip • Fungsi penghubung (link function), yang menghubungkan E(Yi ) = µi dengan xi β g(µi ) = xi β • Fungsi variansi Vi Fungsi densitas f (y; θ) disebut sebagai Keluarga eksponensial (exponential family) bila: f (y; θ) = s(y)t(θ)ea(y)b(θ) = exp(a(y)b(θ) + c(θ) + d(y)) dengan s(y) = exp(d(y)) dan t(θ) = exp(c(θ)). • jika a(y) = y, f (y; θ) disebut bentuk standar (canonical, standard form) • b(θ) sering disebut parameter natural Beberapa contoh keluarga eksponensial Distribusi parameter natural c d Poisson log θ −θ − log y! µ2 y2 µ 1 2 − − log(2πσ ) − Normal 2 2 σ 2σ 2 2σ 2 π ) n log(1 − π) log ny Binomial log( 1−π Beberapa contoh GLM: Model Jenis respon Y distribusi fungsi penghubung Model linear Normal kontinu Normal identitas: g(µ) = µ µ Regresi Logistik proporsi binomial logit: g(µ) = log 1−µ Regresi Poisson cacah Poisson log : g(µ) = log µ Model Gamma kontinu, positif Gamma log: g(µ) = log µ Beberapa contoh fungsi penghubung: • identitas : g(µ) = µ µ • logit: g(µ) = log 1−µ
• probit: g(µ) = Φ−1 (µ), Φ distribusi kumulatif Normal standar ( µλ jika λ 6= 0 • power: g(µ) = log(µ) jika λ = 0 • log: g(µ) = log µ • complementary log log: g(µ) = log(− log(1 − µ))
43
5.3. Regresi Logistik
5.3 Regresi Logistik Pada Bagian 3.3 dipelajari analisis untuk tabel 2 × 2. Dalam tabel 2 × 2 ini baik respon Y maupun variabel penjelas atau faktor X hanya terdiri atas dua jenis kategori. Penelitian dalam bidang kesehatan maupun epidemiologi biasanya mempunyai lebih dari satu variabel penjelas atau faktor X. Untuk data penelitian semacam ini dapat digunakan regresi logistik.
5.3.1 Model dan Estimasi Parameter Misalkan Yi adalah variabel random Bernoulli untuk individu i, distribusi probabilitas YI adalah P (Yi = yi ) = πiyi (1 − πi )1−yi ,
yi = 0, 1
(5.1)
Setiap individu i mempunyai karakteristik berupa variabel xi yang mempengaruhi πi dalam bentuk πi =
1 1 + exp(−(β0 + β1 xi ))
(5.2)
Fungsi seperti πi dalam persamaan (5.2) dinamakan fungsi logistik. Untuk variabel independen atau faktor yang lebih dari satu, fungsi untuk πi dapat diperluas menjadi πi =
1 eZ , atau π = i 1 + e−Z 1 + eZ
(5.3)
dengan Z = β0 + β1 x1 + β1 x1 + · · · + βp adalah fungsi linear dari p variabel penjelas. Model (5.3) dapat dituliskan sebagai kombinasi linear dari variabel independen seperti halnya pada model linear sebagai berikut log
πi = β0 + β1 x1i + β2 x2i + · · · + βp xpi 1 − πi
(5.4)
atau logit(πi ) = β0 + β1 x1i + β2 x2i + · · · + βp xpi
(5.5)
dengan x1i , x2i , . . . , xpi adalah variabel independen, faktor atau kovariat; dan β0 , β1 , . . . , βp adalah parameter model.
44
5.3. Regresi Logistik
Estimasi untuk β = (β0 , β1 , . . . , βp ) dapat diperoleh dengan MLE untuk fungsi likelihood berikut ini L(β) =
n Y
P (Yi = yi )
i=1
[exp(β0 + β1 x1i + β2 x2i + · · · + βpi )]yi = 1 + exp(β0 + β1 x1i + β2 x2i + · · · + βpi )
(5.6)
Program statistika seperti R, SPSS, Epi-Info, STATA menyediakan fasilitas untuk ˆ dan kesalahan standarnya SE(β). ˆ estimasi β
5.3.2 Interpretasi Parameter Model Untuk model regresi logistik sederhana logit(πi ) = β0 + β1 xi
(5.7)
dengan ( 0 i tdk terpapar xi = 1 i terpapar dapat dituliskan log
πi = β0 + β1 xi 1 − πi πi = exp [β0 + β1 xi ] 1 − πi
atau oddsxi = exp [β0 + β1 xi ] , yang diinterpretasikan sebagai odds seseorang yang mempunyai karakteristik xi . Untuk orang yang terpapar (exposed), nilai xi = 1 dan odds-nya ditulis sebagai oddsxi =1 . Demikian juga untuk orang yang tidak terpapar, odds-nya ditulis sebagai oddsxi =0 . Sehingga odds ratio antara orang yang terpapar (xi = 1) dengan yang tidak terpapar (xi = 0) adalah eβ0 +β1 ×1 eβ0 +β1 oddsxi =1 = β0 +β1 ×0 = β0 oddsxi =0 e e β1 = e .
OR =
(5.8)
45
5.3. Regresi Logistik
Atau dapat disimpulkan bahwa eksponen dari parameter model regresi logistik sederhana adalah OR. Jika variabel X kontinu, kenaikan m-unit untuk satu variabel penjelas X, misalnya X = x + m dibandingkan dengan X = x mempunyai OR sama dengan exp(mβ1 ). Estimasi titik dan interval konfidensi (1 − α)100% untuk OR dapat dihitung asalkan estimasi βˆ1 dan standar error-nya σ ˆ (βˆ1 ) diperoleh. c = exp(βˆ1 ) OR
exp(βˆ1 ± Zα/2 σ ˆ (βˆ1 ))
(5.9) (5.10)
Interpretasi ini dapat diperluas untuk model regresi logistik ganda dengan variabel penjelas bertipe kontinu maupun kategori. Secara umum OR antara individu atau kelompok yang mempunyai karakteristik x1 dengan individu atau kelompok yang mempunyai karakteristik x0 adalah sebagai berikut: odds(πx1 ) odds(πx0 ) exp(β0 + β1 x11 + β2 x12 + . . . + βp x1p ) = exp(β0 + β1 x01 + β2 x02 + . . . + βp x0p ) ( p ) X = exp βj (x1j − x0j ) .
OR =
(5.11)
j=1
Untuk menyederhanakan penulisan, indeks i yang biasa digunakan untuk menunjukkan suatu individu dihilangkan. Karakteristik x1 adalah vektor yang bernilai (x11 , x12 , . . . , x1p ) dan karakteristik x0 adalah vektor yang bernilai (x01 , x02 , . . . , x0p ). Untuk menghitung interval konfidensi (1 − α)100% OR diperlukan nilai stanc yang mempunyai bentuk umum dard error dari log(OR) v ( p ) u X u c = tVar SE[log(OR)] βj (x1j − x0j ) . (5.12) j=1
Sehingga interval konfidensi 95% nya adalah c ± 1,96 × SE[log(OR)] c exp log(OR)
(5.13)
Bentuk umum di atas dapat juga digunakan untuk menyusun interval konfidensi suatu model regresi logistik yang memuat interaksi. Dalam Bagian 4.4 telah dibahas pengertian interaksi dan metode inferensinya. Namun metode yang
46
5.3. Regresi Logistik
dibahas mempunyai keterbatasan hanya dua faktor atau variabel saja yang terlibat dalam model interaksi. Dengan menggunakan model regresi, termasuk model regresi logistik, masalah tersebut dapat diatasi. Misalkan variabel atau faktor yang terlibat lebih dari dua yaitu X1 , X2 , X3 . Model yang menjadi perhatian adalah logit(π) = β0 + β1 X1 + β2 X1 + β3 X3
(5.14)
dengan X1 bernilai (0 = tidak terpapar, 1 = terpapar) dan merupakan variabel yang menjadi perhatian, X2 dan X3 dianggap sebagai confounder. Variabel X2 dan X3 dapat bertipe kontinu maupun kategori, misal X2 adalah usia dalam tahun, dan X3 adalah jenis kelamin dengan X3 = 0 jika perempuan, X3 = 1 jika lakilaki. Variabel X1 kemungkinan berinteraksi dengan salah satu X2 atau X3 . Misal ingin dihitung OR antara seorang laki-laki yang terpapar dan berusia 40 tahun dengan seorang laki-laki yang tidak terpapar dan berusia 40 tahun. Dalam hal ini nilai x1 = (X11 = 1, X12 = 40, X13 = 1) dan x0 = (X01 = 0, X02 = 40, X03 = 1). Menggunakan (5.11) OR x1 terhadap x0 adalah: ( 3 ) X OR = exp βj (X1j − X0j ) j=1
= exp {β1 (X11 − X01 ) + β2 (X12 − X02 ) + β3 (X13 − X03 )} = exp {β1 (1 − 0) + β2 (40 − 40) + β3 (1 − 1)} = exp {β1 } (5.15)
Meskipun rumusan OR yang diperoleh pada regresi logistik ganda (5.15) sama dengan yang diperoleh pada regresi logistik sederhana (5.8) namun nilainya berbeda. Dalam (5.15) nilai OR dikatakan sudah diselaraskan (adjusted, controlled) dengan variabel X2 dan X3 sedangkan pada (5.8) tidak diselaraskan, perhitungan hanya dari variabel utama X1 saja. Interval konfidensi 95% dapat menggunakan standard error untuk log(OR) atau SE(βˆ1 ), yaitu exp(log(OR) ± 1,96 × σ ˆ (βˆ1 )). Misalkan model yang menjadi perhatian sekarang adalah model dengan interaksi logit(π) = β0 + β1 X1 + β2 X1 + β3 X3 + β4 X1 X2 + β5 X1 X3 .
(5.16)
Rumusan OR antara seorang laki-laki yang terpapar dan berusia 40 tahun dengan seorang laki-laki yang tidak terpapar dan berusia 40 tahun menjadi: ( 3 ) X OR = exp βj (X1j − X0j ) j=1
= exp{β1 (X11 − X01 ) + β2 (X12 − X02 ) + β3 (X13 − X03 ) + β4 (X11 X12 − X01 X02 ) + β4 (X11 X13 − X01 X03 )}
47
5.3. Regresi Logistik
= exp{β1 (1 − 0) + β2 (40 − 40) + β3 (1 − 1) + β4 (1 × 40 − 0 × 40) + β5 (1 × 1 − 0 × 1)} = exp{β1 + 40β4 + β5 }
(5.17)
Estimasi OR untuk model regresi logistik dengan interaksi ini tidak sama dengan OR untuk model regresi logistik tanpa interaksi. Estimasi standard error log(OR) juga berbeda dan lebih rumit. Var[log(OR)] = Var (β1 + 40β4 + β5 ) = Var(β1 ) + 402 Var(β4 ) + Var(β5 ) + 2(40)Kov(β1 , β4 ) + 2Kov(β1 , β5 ), (5.18) p jadi SE[log(OR)] = Var[log(OR)] memerlukan nilai Variansi estimator β1 , β4 , β5 dan Kovariannya. ˆ maupun Kov(β) ˆ Program statistik standar biasanya mampu menghitung β yang diperlukan untuk interval konfidensi. Beberapa program sudah dilengkapi pula dengan output batas interval konfidensi untuk OR-nya. Contoh 5.1 Merujuk data pada Tabel 3.4 tentang hubungan antara penyakit jantung koroner dengan tekanan pekerjaan, telah dihitung estimasi untuk RR, OR dan RD sebagai berikut:
Risk ratio (RR) Odds ratio (RR) Risk difference (RD)
Estimasi titik 1,932 2,225 0,116
Interval Konfidensi 95% 1,555 — 2,399 1,696 — 2,922 0,071 — 0,161
Estimasi seperti tabel di atas juga dapat diperoleh dengan model regresi logistik sederhana logit(πi ) = β0 + β1 xi , i = 1, . . . , 2013 (ada 97 + 307 + 200 + 1409 = 2013 subyek dalam studi tersebut). Variabel respon Yi bernilai 1 jika i terkena penyakit jantung koroner, bernilai 0 jika tidak; variabel dependen (faktor) Xi bernilai 1 jika i tertekan karena pekerjaan, bernilai 0 jika tidak. Estimasi β0 dan β1 dapat dilakukan dengan menggunakan alat bantu paket statistik.Output regresi logistik suatu paket statistik minimal menampilkan hasil estimasi β dan standard error nya. Untuk data di atas diperoleh hasil sebagai berikut:
Insersep Tertekan karena pekerjaan
Estimasi titik βˆ0 = −1,952 βˆ1 = 0,800
standard error σ ˆ (βˆ0 ) = 0,0756 σ ˆ (βˆ1 ) = 0,1388
Untuk menghitung RR antara subyek atau kelompok yang tertekan karena pekerjaan dengan subyek yang tidak tertekan karena pekerjaan dapat digunakan estimasi πi dari model logistik logit(πi ) = −1,952 + 0,800xi .
48
5.4. Regresi Poisson
Resiko atau probabilitas kondisional subyek terkena jantung koroner jika dia tertekan karena pekerjaan adalah π ˆxi =1 = P (yi = 1 | xi = 1) = alogit(−1,952 + 0,800xi ) = alogit(−1,952 + 0,800 × 1) = alogit(−1,152) = 0,240 dengan alogit adalah fungsi invers dari logit alogit(u) =
exp(u) 1 + exp(u)
(5.19)
Dengan cara yang sama dapat dihitung resiko subyek terkena jantung koroner jika dia tidak tertekan karena pekerjaan, yaitu π ˆxi =0 = 0,124. Estimasi titik untuk risk ratio, odds ratio dan risk difference dapat dihitung menggunakan π ˆxi =1 dan π ˆxi =0 . Estimasi odds ratio juga dapat dihitung menggunakan persamaan (5.8) atau secara umum d = exp(0,800) = 2,225. Interval konfidensi untuk OR dapat (5.11). Dalam contoh ini OR d = exp(βˆ1 ), atau log(OR) d = dihitung menggunakan σ ˆ (βˆ1 ) karena dalam model ini OR ˆ β1 . Diperoleh interval konfidensi untuk OR dengan batas bawah exp(0,800 − 1,96 × 0,1388) dan batas atas exp(0,800 + 1,96 × 0,1388) atau (1,696 – 2,292), yang sama dengan hasil yang diperoleh pada contoh 3.4 di muka. Standard error untuk RR dan RD tidak mudah dihitung berdasarkan π ˆxi =1 dan π ˆxi =0 sehingga dalam praktek estimasi dan interval konfidensi untuk RR dan RD dengan menggunakan regresi logistik tidak banyak digunakan.
5.4 Regresi Poisson 5.4.1 Model dan Estimasi Parameter Distribusi Poisson biasanya digunakan untuk memodelkan cacah kejadian dalam suatu unit interval waktu, atau daerah tertentu. Distribusi probabilitas Poisson mempunyai fungsi probabilitas sebagai berikut P (Y = y | µ) =
θx e−µ , y!
y = 0, 1, 2, . . .
(5.20)
yang mempunyai mean dan variansi sama yaitu µ. Banyaknya pasien yang datang di unit gawat darurat per hari, banyaknya kematian akibat kanker per orang-tahun (person-years), banyaknya kematian bayi per 1000 kelahiran merupakan contoh fenomena yang dapat dimodelkan dengan
49
5.4. Regresi Poisson
distribusi Poisson. Dalam contoh tersebut ada dua komponen yang mencirikan distribusi Poisson, yaitu banyaknya sukses atau cacah kejadian (events) dan unit dimana banyaknya sukses tersebut terjadi. Mean µ dari distribusi Poisson adalah rate banyaknya sukses dibagi total unit. Regresi Poisson memodelkan mean µ sebagai fungsi dari variabel independen dan besarnya unit. Regresi Poisson dengan satu variabel independen dituliskan sebagai berikut: E(Yi | Xi ) = µi = si λ(xi ) = si exp(β0 + β1 xi ), log µi = log si + β0 + β1 xi
(5.21) atau (5.22)
dengan Yi adalah banyaknya sukses pada unit i, si adalah ukuran besarnya tiap unit i, λ(xi ) dinamakan resiko unit i dan xi adalah variabel independen, i = 1, 2, . . . , n. Ukuran unit si dapat berupa banyaknya anggota populasi, interval waktu, luasan, exposure time dan sebagainya. Dalam model regresi Poisson ini karakteristik suatu unit yang dinyatakan dengan variabel independen xi mempengaruhi µ melalui probabilitas resiko λ. Dengan asumsi Yi berdistribusi Poisson, diperoleh fungsi likelihood: L(β) =
n Y
P (Yi = yi )
i=1
= =
n Y [si λ(xi )]yi exp[−si λ(xi )]
i=1 n Y i=1
yi !
[si exp(β0 + β1 xi )]yi exp[−si exp(β0 + β1 xi )] yi !
(5.23)
ˆ dapat digunakan bebeUntuk mengestimasi β dan kesalahan standarnya SE(β) rapa program statistika seperti R, STATA, SPSS atau SAS.
5.4.2 Interpretasi Parameter Model Untuk model regresi Poisson sederhana log µi = log si + β0 + β1 xi dengan ( 0 i tdk terpapar xi = 1 i terpapar
(5.24)
50
5.4. Regresi Poisson
Dapat dihitung rasio antara mean antara unit i yang terpapar dengan yang tidak terpapar sebagai berikut E(Yi | Xi = 1) E(Yi | Xi = 0) si exp(β0 + β1 ) = si exp(β0 ) = eβ1
RR =
(5.25)
Dengan menggunakan pendekatan Poisson untuk Binomial, rasio di atas dapat diinterpretasikan sebagai relative risk atau risk ratio RR. Pendekatan ini akan cukup baik jika probabilitas atau resiko kejadian kecil (rare events) dengan ukuran unit yang cukup besar. Contoh 5.2 Merujuk pada Contoh 3.3 tentang pengaruh rokok pada kematian, telah dihitung insidensi untuk kelompok perokok dan bukan perokok dalam satuan per 1000 orang, yaitu untuk perokok adalah 4,43 dan untuk bukan perokok adalah 2,58. Rasio resiko untuk meninggal antara perokok dan bukan perokok adalah RR = 4,43/2,58 = 1,72. Regresi Poisson sederhana dapat digunakan untuk menghitung RR beserta interval konfidensinya. Dengan menggunakan paket program statistik diperoleh estimasi untuk β0 dan β1 beserta standard error nya sebagai berikut βˆ0 = −5,9618, SE(βˆ0 ) = 0,0995 dan βˆ1 = 0,5422, SE(βˆ1 ) = 0,1072. c = exp(βˆ1 ) = exp(0,5422) = 1,72 RR
c ± 1,96SE(βˆ1 ) atau Interval konfidensi 95% untuk RR adalah eksponensial dari log(RR) (1,4 – 2,1).
Seperti model regresi logistik, regresi Poisson dapat diperluas untuk banyak variabel (regresi Poisson ganda) sebagai berikut: log µi = log si + β0 + β1 xi + . . . + βp xp
(5.26)
dengan x1 , x2 , . . . , xp adalah variabel dependen dan β1 , β2 , . . . , βp adalah koefisien regresi Poisson. Model regresi Poisson juga dapat digunakan untuk menganalisis interaksi seperti halnya pada model regresi logistik. Cara penghitungan RR dan interval konfidensi pada regresi Poisson juga mengikuti prinsip penghitungan OR dan interval konfidensinya pada regresi logistik. Contoh 5.3 Merujuk kembali pada Contoh 3.3, insidensi untuk tiap kelompok umur dan status merokok pada Tabel 3.1 dapat dihitung menggunakan rumus (3.9). Misalnya untuk perokok dalam kelompok umur 35 − 44, estimasi insidensi kematian adalah 32/52407 =
51
5.4. Regresi Poisson
0,00061061 atau karena bilangan insidensi kecil biasanya dikalikan dengan suatu konstan besar misalnya 100.000, jadi insidensinya adalah 61,06 kematian per seratus ribu orang. Dengan cara yang sama dapat dihitung nilai insidensi yang lain seperti pada Tabel 5.1. Untuk membandingkan insidensi dapat dihitung RR perokok dan bukan perokok dalam kelompok umur yang sama. Misalnya RR untuk perokok dibanding bukan perokok dalam kelompok umur 35 − 44 adalah 61,06/10,64 = 5,74. Nilai RR yang lain dapat dilihat pada Tabel. Plot insidensi menurut status merokok dan usia dapat dilihat pada Gambar 5.1. Dapat dilihat pada Tabel 5.1 dan Gambar 5.1 bahwa tingkat kematian untuk perokok lebih tinggi dibandingkan dengan tingkat kematian bukan perokok, kecuali untuk kelompok usia lanjut. Tabel 5.1: Insidensi dan RR kematian akibat jantung koroner menurut umur dan status merokok Rasio Resiko (RR) 5,74 2,14 1,47 1,36 0,90
500
1000
1500
2000
Insidensi perokok bukan perokok 61,06 10,64 240,47 112,43 719,98 490,37 1468,85 1083,17 1918,38 2120,38
0
kematian per 100.000 per tahun
Kel. Umur 35 – 44 45 – 54 55 – 64 65 – 74 75 – 84
35−44
45−54
55−64
65−74
75−84
kelompok umur
Gambar 5.1: Tingkat kematian akibat penyakit jantung koroner per 100.000 person-years untuk perokok N dan bukan perokok •
52
5.4. Regresi Poisson Tabel 5.2: Estimasi parameter model (5.27) Parameter β0 β1 β2 β3 β4 β5 β6 β7 β8 β9
Estimasi β -9,15 1,75 2,36 3,83 4,62 5,29 -0,99 -1,36 -1,44 -1,85
SE 0,71 0,73 0,76 0,73 0,73 0,73 0,79 0,76 0,76 0,76
Untuk menganalisis data ini dapat digunakan beberapa alternatif model regresi Poisson ganda. Model pertama memuat semua kombinasi tingkat faktor dari status merokok maupun kelompok umur. model ini disebut sebagai saturated model karena banyaknya data sama dengan banyaknya parameter. Model dibentuk dengan membuat variabel-variabel boneka (dummy) untuk kelompok umur dengan interaksi variabel-variabel tersebut dengan status merokok. Modelnya adalah sebagai berikut: log µi = log(si ) + β0 + β1 x1i + β2 x2i + β3 x3i + β4 x4i + β5 x5i + β6 x1i x2i + β7 x1i x3i + β8 x1i x4i + β9 x1i x5i i = 1, 2, . . . , 10
(5.27)
dengan • µi : mean dari kematian • si : person-years • x1i : perokok atau bukan; • xki , k = 2, 3, . . . , 5: kelompok umur 35 − 44, 45 − 54, . . ., 75 − 84 • x1i xki , h = 2, 3, . . . , 5: interaksi (hasil kali) antara x1i dengan kelompok umur xki Diperoleh estimasi seperti pada Tabel 5.2. Untuk mengestimasi insidensi untuk tiaptiap kombinasi status merokok dan kelompok umur dapat digunakan nilai estimasi (β0 , . . . , β9 ) dan nilai variabelnya. Misalnya untuk perokok dalam kelompok umur 35 – 44 akan dihitung estimasinya menggunakan model (5.27). Dalam kelompok ini x1 = 1 (perokok), x2 = 0 (kelompok usia 35 – 44) dan interaksinya x1 x2 = 0, nilai variabel
53
5.4. Regresi Poisson yang lain adalah 0, jadi estimasinya adalah µ = exp(βˆ0 + βˆ1 xi + . . . + βˆ9 x1 x5 )
= exp(−9,15 + (1,75)(1) + (2,36)(0) + (3,83)(0) + (4,62)(0) + (5,29)(0) + (−0, 99)(0) + (−1, 36)(0) + (−1, 44)(0) + (−1, 85)(0)) = exp(−7,40) = 0,0006106 atau 61,06 per 100.000 orang seperti pada Tabel 5.1. Untuk mengestimasi banyaknya kematian, nilai estimasi ini dikalikan dengan si (person years) pada kelompok tersebut. Untuk perokok dalam kelompok umur 35 – 44 diketahui si = 52407, atau 0,0006106(52407) = 32 yang nilainya sama dengan data pada Tabel 3.1. Nilai insidensi pada kombinasi tingkat faktor yang lain dapat dihitung dengan cara serupa. Resiko relatif antara perokok dan bukan perokok (RR) untuk setiap kelompok dapat pula dihitung berdasarkan model regresi Poisson (5.27) dengan hasil estimasi pada Tabel 5.2. Misalnya untuk kelompok usia 45 – 54, c= RR
estimasi insidensi untuk kelompok perokok usia 45 – 54 estimasi insidensi untuk kelompok bukan perokok usia 45 – 54
Estimasi insidensi untuk kelompok perokok usia 45 – 54 adalah n exp βˆ0 + βˆ1 (1) + βˆ2 (1) + βˆ3 (0) + βˆ4 (0) + βˆ5 (0)+ o βˆ6 (1)(1) + βˆ7 (1)(0) + βˆ8 (1)(0) + βˆ9 (1)(0) = exp(βˆ0 + βˆ1 + βˆ2 + βˆ6 ) Sedangkan untuk kelompok bukan perokok usia 45 – 54 adalah n exp βˆ0 + βˆ1 (0) + βˆ2 (1) + βˆ3 (0) + βˆ4 (0) + βˆ5 (0)+ o βˆ6 (0)(1) + βˆ7 (0)(0) + βˆ8 (0)(0) + βˆ9 (0)(0) = exp(βˆ0 + βˆ2 ) Menggunakan nilai estimasi β1 dan β6 diperoleh c = RR
exp(βˆ0 + βˆ1 + βˆ2 + βˆ6 ) exp(βˆ0 + βˆ2 )
= exp(βˆ1 + βˆ6 )
= exp(1,75 + (−0,99)) = exp(0,76) = 2,14. c ini sama seperti pada Tabel 5.1 untuk kelompok umur 45 – 54. Interval konfiNilai RR c densinya dapat dihitung dengan terlebih dahulu menghitung standard error dari log RR yaitu q c = SE(log RR) Var(βˆ1 + βˆ6 ) q Var(βˆ1 ) + Var(βˆ6 ) + 2Kov(βˆ1 , βˆ6 ) =
54
5.4. Regresi Poisson
Program statistik standar biasanya menghitung matriks variansi dan kovariansi dari estimator β selain nilai estimasi β nya sendiri. Diperoleh Var(βˆ1 ) = 0,5313, c = 0,5313 + 0,6242 + Var(βˆ6 ) = 0,6242 dan Kov(βˆ1 , βˆ6 ) = −0,5313, jadi SE(log RR) 2(−0,5313) = 0,0930. Interval konfidensi 95% untuk RR pada kelompok usia 45 – 54 c ± 1,96SE(log RR)) c atau exp(log(2,14) ± 1,96(0,0930)), yaitu (1,782 adalah exp(log RR c – 2.566). Cara penghitungan RR dan interval konfidensi nya untuk kelompok usia yang lain dapat dilakukan dengan cara yang sama. Contoh 5.4 Alternatif model regresi Poisson (5.27) adalah menganggap kelompok usia sebagai variabel kontinu, misalnya dengan mengambil nilai median interval masing-masing kelompok umur, sehingga dapat dimodelkan pula kuadrat dari umur dan interaksinya dengan status merokok. Asumsi ini masuk akal karena usia seperti terlihat pada Gambar 5.1 menampilkan bentuk kuadratik dan bersilangan pada usia lanjut yang menunjukkan adanya interaksi. log µi = log(si ) + β0 + β1 x1i + β2 x2i + β3 x1i × x2i + β4 x21i , i = 1, . . . , 10 (5.28) dengan • µi : mean dari kematian • si : person-years • x1i : perokok atau bukan; • x2i : usia 1, 2, 3, 4, 5 ; • x1i × x2i : interaksi (hasil kali) antara x1i dengan x2i ; • x21i : kuadrat umur Diperoleh hasil estimasi β dan standard error nya seperti pada Tabel 5.3. Model (5.28) Tabel 5.3: Estimasi parameter model (5.28) Parameter β0 β1 β2 β3 β4
Estimasi β -19,700 2,364 0,356 -0,002 -0,0308
SE 1,2530 0,6562 0,0363 0,0003 0,0097
memiliki lebih sedikit parameter dibandingkan model (5.27) dan kecocokan yang lebih baik dilihat dari nilai AIC (Akaike Information Criterion) yaitu nilai AIC 66,70, lebih kecil dibanding model (5.27) yaitu 75.07. Namun memberi nilai numerik pada variabel
55
5.5. Latihan
kelompok umur terkadang dapat menyesatkan, karena pengubahan skala pengukuran dari interval ke rasio. Apabila umur sebenarnya dari setiap individu diketahui, lebih baik digunakan nilai variabel umur ini dalam model. Resiko relatif dapat dihitung dengan cara yang sama seperti contoh 5.3. Misalkan ingin diestimasi RR antara perokok dan bukan perokok untuk usia 50 tahun, maka c = RR =
estimasi insidensi untuk kelompok perokok usia 50 estimasi insidensi untuk kelompok bukan perokok usia 50 exp(βˆ0 + βˆ1 (1) + βˆ2 (50) + βˆ3 (1)(50) + βˆ4 502 )
exp(βˆ0 + βˆ1 (0) + βˆ2 (50) + βˆ3 (0)(50) + βˆ4 502 ) = exp(βˆ1 (1) + βˆ3 (1)(50)) = exp(2,364 + (−0,002)(50)) = 9,622
c dihitung dengan terlebih dahulu menghitung nilai Interval konfidensi untuk RR c yaitu SE(log RR), c = SE(log RR)
q
Var(βˆ1 ) + 502 Var(βˆ3 ) + 2Kov(βˆ1 D, βˆ3 )
c ± 1,96SE(log RR))), c Batas bawah dan atas interval konfidensi 95% adalah (exp(log RR yang dapat dihitung asalkan nilai matrik variansi-kovariansi β diketahui.
5.5 Latihan 5.1. Mengacu soal nomor 2.8, misalkan digunakan regresi logistik logit(π) = β0 + β1 X, dengan X bernilai 1, jika menggunakan helm, 0 jika tidak; (a) Hitung nilai estimasi β0 (b) Hitung nilai estimasi β1 5.2. Diberikan model regresi logistik logit(πi ) = β0 + β1 xi , dengan ( −1 jika subyek i tidak terpapar Xi = 1 jika subyek i terpapar Berapakah OR antara individu yang terpapar dengan yang tidak terpapar? 5.3. Respiratory Distress Syndrome (RDS) merupakan salah satu penyakit penyebab utama kematian bayi. Gangguan fisiologis seperti kekurangan oksigen dan tingkat keasaman tinggi dalam darah diperkirakan menjadi penyebab RDS. Suatu penelitian cross-sectional tentang RDS dilakukan pada 50 bayi dengan variabel respon adalah SURVIVAL (1: mati, 0: hidup) dan variabel penjelas TREATMNT (tipe tritmen untuk menetralisasi asam dalam
56
5.5. Latihan
darah, 1: THAM, 0: sodium carbonate); TIME (lama waktu yang diperlukan bayi untuk bernapas kembali, dalam menit), WEIGHT (Berat lahir, kilogram), RESP (Terapi pernafasan, 1: Ya, 0:Tidak), AGE (usia gestasional atau lama bayi/janin dalam kandungan, minggu). Diperoleh output regresi logistik dari sebuah paket statistik sebagai berikut: Variable TREATMNT TIME WEIGHT RESP AGE Constant
B .94 .04 3.94 -1.88 -.35 4.10
S.E. .78 .10 1.62 .82 .24 5.80
Wald 1.44 .14 5.85 5.26 2.05 .50
df 1 1 1 1 1 1
Sig .22 .70 .91 .02 .15 .47
R .00 .00 .24 -.22 -.02
Exp(B) 2.56 1.04 51.50 .15 .69
(a) Hitung estimasi probabilitas untuk bayi yang mendapatkan tritmen 1, lama waktu bernafas kembali 2 menit, berat lahir 1,05 kg, tidak mendapat terapi pernafasan dan usia gestasional 28 minggu! (b) Hitung interval konfidensi 95% untuk OR (odds ratio) antara tritmen (TREATMNT) 1: THAM dengan 0: sodium carbonate! (c) Hitung estimasi RR (risk ratio) antara tritmen (TREATMNT) 1: THAM dengan 0: sodium carbonate dan nilai variabel yang lain sama untuk masing-masing tritmen, yaitu TIME=2, WEIGHT=1,05 , RESP=0 AGE=28! 5.4. Ingin diteliti apakah status sosial (variabel SOC, 1= kelas sosial tinggi, 0=kelas sosial rendah) berpengaruh terhadap mortalitas akibat penyakit jantung (variabel CVD, 1=meninggal karena penyakit jantung, 0=meninggal bukan karena penyakit jantung). Variabel lain yang dipandang penting adalah status merokok (variabel SMK, 0=tidak merokok, 1=merokok) dan tekanan darah sistolik (SBP, variabel kontinu). Dari follow-up study selama 12 tahun terhadap 200 pria yang berusia 50 tahun atau lebih diperoleh estimasi parameter model logistik sebagai berikut: Model 1: Model 2: Variable Estimasi β Variable Estimasi β Intersep −1,1800 Intersep −1,1900 SOC −0,5200 SOC −0,5000 SBP 0,0400 SBP 0,0100 SMK −0,5600 SMK −0,4200 SOC × SBP −0,0330 SOC × SMK 0,1750 (a) Tuliskan formulasi model logistik untuk Model 1 dan Model 2!
5.5. Latihan
57
(b) Hitung Risk Ratio meninggal karena CVD untuk status sosial tinggi terhadap status sosial rendah berdasarkan Model 1 dan Model 2, untuk perokok yang tekanan darah sistoliknya 150! (c) Berapakah Odds Ratio meninggal karena CVD untuk status sosial tinggi terhadap status sosial rendah setelah diselaraskan oleh variabel yang lain (adjusted for other variables) berdasarkan Model 1 dan Model 2? 5.5. Diberikan model regresi Poisson log(µi ) = log si + −6,757 + 0,304xi , dengan si adalah ukuran tiap unit i, µi adalah unit ke-i dan ( −1 jika subyek i tidak terpapar Xi = 1 jika subyek i terpapar Hitung estimasi RR antara individu yang terpapar dengan yang tidak terpapar! 5.6. Diperoleh data banyak kasus (N) kanker kulit untuk dua daerah A dan B dan untuk kelompok umur sebagai berikut: Daerah A Daerah B Kel. umur N populasi N populasi 15 – 24 1 172 675 4 181 343 25 – 34 16 123 065 38 146 207 35 – 44 30 96 216 119 121 374 Lakukan analisis dengan menggunakan regresi Poisson untuk data di atas (gunakan paket statistik)!
6 Uji Diagnostik 6.1 Tujuan Pembelajaran Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Menjelaskan Sensitivitas, Spesifisitas dan Nilai Prediksi beserta teori yang mendasarinya 2. Menghitung dan menginterpretasikan kurva ROC, untuk suatu data diagnosis
6.2 Sensitivitas, Spesifisitas dan Nilai Prediksi Untuk menentukan sakit atau tidaknya seseorang diperlukan diagnosa medis yang tepat. Dapat dikatakan diagnosis adalah langkah awal yang penting dalam pengobatan. Kesalahan diagnosa dapat berakibat kesalahan pengobatan dan tidak mustahil berakibat fatal. Diagnosa juga merupakan tahap yang penting dalam program preventif penyakit. Dalam hal ini diagnosis sering disebut sebagai screening, yaitu menjaring orang yang mungkin berpotensi untuk menderita suatu penyakit tertentu. Dalam diagnosis ataupun screening digunakan suatu prosedur atau tes untuk melihat apakah seseorang menderita penyakit tertentu atau tidak. Kegiatan diagnostik dapat dipandang sebagai probabilitas peristiwa-peristiwa sebagai berikut: T + : diagnosa atau screening menunjukkan tes positif T − : diagnosa atau screening menunjukkan tes negatif D+ : kenyataannya positif ada penyakit D− : kenyataannya tidak ada penyakit (negatif) Baik atau tidaknya suatu prosedur atau tes diagnostik dapat dilihat berdasarkan probabilitas-probabilitas bersyarat di bawah ini: 58
6.2. Sensitivitas, Spesifisitas dan Nilai Prediksi
59
Sensitivitas (sensitivity): Yaitu probabilitas tes akan positif jika seseorang pada kenyataannya memang sakit, Sens = P (T + | D+) Spesifisitas (specificity): Yaitu probabilitas tes akan negatif jika seseorang pada kenyataannya memang tidak sakit, Spec = P (T − | D−) Nilai Prediksi + (Predictive Value +): Yaitu probabilitas seseorang sakit jika hasil tes menunjukkan hasil positif, PV+ = P (D+ | T +) Nilai Prediksi - (Predictive Value -): Yaitu probabilitas seseorang tidak sakit jika hasil tes menunjukkan hasil negatif, PV− = P (D− | T −) Suatu alat yang ideal seharusnya mempunyai nilai sensitivitas dan spesifisitas yang cukup tinggi (mendekati 1). Namun pada prakteknya nilai sensitivitas dan spesifisitas tidak dapat diestimasi, karena memerlukan pengetahuan apakah kenyataannya seseorang menderita penyakit atau tidak. Sedangkan jika sudah diketahui ada tidaknya suatu penyakit tentu saja tidak lagi diperlukan adanya tes diagnostik! Nilai sensitivitas dan spesifisitas hanya dapat diestimasi dengan cara dibandingkan dengan tes lain yang dianggap paling tepat (gold standar test). Dalam praktek yang ingin diketahui melalui suatu prosedur diagnostik adalah, apakah suatu tes yang diketahui positif akan dapat memprediksi adanya suatu penyakit, yaitu PV+ prosedur diagnostik tersebut; dan juga PV- dari prosedur diagnostik tersebut. Nilai prediksi positif dapat diturunkan menggunakan Teorema Bayes: PV+ = P (D+ | T +) P (D+ ∩ T +) = P (T +) P (D+)P (T + | D+) = P (D+)P (T + | D+) + P (D−)P (T + | D−) Prevalence × Sensitivity . = prev. × sens. + (1 − prev.) × (1 − spec.)
(6.1) (6.2) (6.3) (6.4)
Demikian pula untuk Nilai prediksi negatif, PV− = P (D− | T −) P (D− ∩ T −) = P (T −) P (D−)P (T − | D−) = P (D−)P (T − | D−) + P (D+)P (T − | D+) (1 − Prevalence) × Specificity = . (1 − prev.) × spec. + prev. × (1 − sens.)
(6.5) (6.6) (6.7) (6.8)
60
6.2. Sensitivitas, Spesifisitas dan Nilai Prediksi Tabel 6.1: Hasil cytological test
D− D+
T− 23.362 225
T+ 362 154
Total 23.724 379
Contoh 6.1 Suatu tes sitologi (cytological test) dilakukan untuk screening kanker rahim pada wanita. Diperoleh data 24.103 wanita yang terdiri atas 379 wanita yang diketahui sudah menderita kanker rahim (dengan tes yang dianggap sebagai gold standar). Diperoleh data seperti pada Tabel 6.1. Hitung sensitivity dan specificity tes tersebut! Jawab: 154 = 0,406 379 = 40,6%
sens =
23,362 = 0,985 23,724 = 98,5%
spec =
Hasil estimasi sens dan spec tersebut dapat diinterpretasikan sebagai berikut: • Jika tes digunakan untuk wanita yang tidak menderita kanker rahim, tes hampir pasti akan negatif ( specificity = 98,5% cukup besar) • Jika tes digunakan untuk wanita yang menderita kanker rahim, peluang tidak terdeteksi besar ( sensitivity = 40,6 % rendah; false negatif 59,4%)
Suatu alat atau prosedur diagnostik biasnya sudah dilengkapi dengan nilai sensitivitas dan spesifisitas sehingga ketika digunakan untuk diagnosis, nilai prediktivitas positif (PV+) maupun nilai prediktivitas negatif (PV−) dapat dihitung asalkan nilai prevalensi juga diketahui. Untuk nilai sensitivitas dan spesifisitas yang tertentu dan tetap, semakin besar prevalensi nilai PV+ akan semakin besar sedangkan PV− akan semakin kecil. Contoh 6.2 Table 6.2 menyajikan PV+ dan PV− yang dihitung berdasarkan persamaan (6.1) dan (6.5) untuk berbagai nilai prevalensi dengan spec=98,5% dan sens=40,6%. Terlihat bahwa PV+ dan PV− nilainya terpengaruh oleh prevalensi, semakin besar prevalensi PV+ akan semakin besar sedangkan PV− akan semakin kecil.
61
6.3. Kurva ROC Tabel 6.2: Nilai PV+ dan PV- untuk berbagai nilai prevalensi prevalensi 0,0010 0,0157 0,0500 0,1000 0,5000
PV+ 0,0264 0,3015 0,5876 0,7505 0,9644
PV0,999 0,990 0,969 0,937 0,624
6.3 Kurva ROC Kurva ROC (receiver operating characteristic) digunakan apabila respon diagnosis atau (screening test) lebih dari dua jenis respon atau berupa bilangan kontinu. Kurva ini pada awalnya digunakan di dunia militer untuk penyelidikan tentang deteksi sinyal oleh radar. Kurva ini menghubungkan nilai sensitivitas dengan 1-spesifisitas, dimana titik pada kurva bersesuaian dengan batas cut-off point yang digunakan untuk menentukan tes positif. Area di bawah kurva ROC dapat digunakan untuk menilai keakuratan suatu diagnosis. Semakin besar luasan di bawah kurva ROC, semakin akurat suatu diagnosis. Contoh 6.3 Dari 109 pasien syaraf diperoleh skor hasil interpretasi CT image (computed tomographic image) oleh seorang radiolog seperti pada Tabel 6.3. Status penyakit untuk setiap pasien telah diketahui berdasarkan diagnosis yang dianggap paling benar (gold standard). Tidak Tabel 6.3: Skor dari radiolog untuk hasil CT image pasien syaraf Status Penyakit (D) Normal (D−) Abnormal (D+) Abnormal (D+) ∗ (1) hampir pasti normal;
(1) 33 3 36
Skor dari radiolog ∗ (2) (3) (4) 6 6 11 2 2 11 8 8 22
(5) 2 33 35
Total 58 51 109
(2) mungkin normal; (3) tidak dapat ditentukan (4) mungkin abnormal;
(5) hampir pasti abnormal
seperti contoh sebelumnya, dalam data ini tidak diberikan kriteria untuk menentukan tes positif atau negatif. Sehingga untuk menentukan sensitivitas maupun spesifitasnya digunakan titik batas (cut-off point) yang berbeda-beda. Misalnya jika digunakan titik batas suatu pasien dikatakan positif sakit adalah skor 4 ke atas (skor 4 atau 5) maka sensitivitas tes adalah (11 + 33)/51 = 0,86, sedangkan spesifitasnya adalah (33 + 6 + 6)/58 = 0,78. Dengan cara yang sama dapat dihitung sensitivitas maupun spesifitas untuk titik batas yang lain seperti pada Tabel 6.4. Plot antara sensitivitas dengan 1 − spesifisitas adalah kurva ROC untuk skor radiolog ini (Gambar 6.1).
62
6.3. Kurva ROC Tabel 6.4: Sensitivitas dan Specifisitas berdasarkan beberapa kriteria tes positif Kriteria tes positif 1 ≤ skor 2 ≤ skor 3 ≤ skor 4 ≤ skor 5 ≤ skor 5 < skor
sensitivitas 1,00 0,94 0,90 0,86 0,65 0,00
spesifitas 0,00 0,57 0,67 0,78 0,97 1,00
(0.43, 0.94) b
1-spesifitas 1,00 0,43 0,33 0,22 0,03 0,00 b
(1.00, 1.00)
b
(0.33, 0.90) (0.22, 0.86) b
sensitivitas
b
(0.03, 0.65)
b
(0.00, 0.00)
1-specifisitas Gambar 6.1: Kurva ROC untuk skor radiolog. Hasil suatu tes atau prosedur diagnostikyang berupa data ordinal, interval atau kontinu dapat dianalisis sensitivitas dan sepesifitasnya dengan kurva ROC seperti pada contoh 6.3. Kurva ROC juga dapat digunakan untuk membandingkan beberapa prosedur diagnostik. Prosedur yang paling baik adalah yang mempunyai luas area di bawah kurva ROC yang paling besar. Sebagai contoh pada Gambar 6.2, prosedur diagnostik yang lebih baik adalah yang berupa kurva ROC garis penuh. Luas di bawah kurva ROC dapat dihitung dengan aturan trapezoid. Contoh 6.4 Merujuk contoh 6.3, hitung luas area di bawah kurva ROC dan interpretasinya! Jawab: Luas area LROC di bawah kurva ROC adalah LROC = 0,5(0 + 0,65)0,03 + 0,5(0,65 + 0,86)(0,22 − 0,03) + 0,5(0,86 + 0,90)(0,33 − 0,22) +0,5(0,90 + 0,94)(0,43 − 0,33) + 0,5(0,94 + 1,0)(1,0 − 0,43) = 0,895
63
sensitivitas
6.4. Latihan
1-specifisitas
Gambar 6.2: Perbandingan Kurva ROC. Dapat disimpulkan bahwa radiolog tersebut dapat membedakan individu yang normal dengan yang abnormal berdasarkan skor CT nya dengan probabilitas sebesar 89,5%.
6.4 Latihan 6.1. Dalam diagnostik atau screening ukuran apakah yang terpengaruh oleh prevalensi? Jelaskan! 6.2. Cara pembandingan apakah yang paling tepat untuk dua macam tes diagnostik yang hasilnya berupa suatu bilangan kontinu nonnegatif (seperti misalnya serum kolesterol, tekanan darah, dst)? Jelaskan! 6.3. Tabel di bawah menunjukkan hasil penggunaan x-ray sebagai tes screening untuk tuberkulosis: Tuberkulosis X-ray Tidak Ya Negatif 1739 8 Positif 51 22 Hitung sensitivitas, spesifisitas dan prevalensi berdasarkan tabel di atas! 6.4. Suatu tes digunakan untuk mendiagnosis pasien Alzheimer’s dan demen-
6.4. Latihan
64
tia. Disease atau D+ pada tabel di bawah ini adalah dementia (kepikunan). skor Tes D− D+ 0–5 0 2 6–10 0 1 11–15 3 4 16–20 9 5 21–25 16 3 26–30 18 1 46 16 (a) Jika digunakan titik batas skor ≤ 20 untuk mengidentifikasi dementia, hitung sensitivitas dan spesifitas tes ini! (b) Buatlah kurva ROC dari tabel data di atas! (c) Hitung area di bawah kurva ROC dan interpretasikan hasilnya!
7 Analisis Data Longitudinal 7.1 Tujuan Pembelajaran Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Mengidentifikasi data longitudinal dalam permasalahan epidemiologi dan penelitian kesehatan 2. Melakukan statistika deskriptif (ringkasan statistik dan grafik) untuk data longitudinal 3. Melakukan inferensi menggunakan model regresi untuk data longitudinal
7.2 Deskripsi Data longitudinal Banyak penelitian dalam bidang kedokteran, kesehatan dan epidemiologi yang menggunakan desain pengumpulan data longitudinal. Yang dimaksud dengan data longitudinal adalah • Individu (subyek, unit sampel) diamati dalam suatu periode waktu tertentu lebih dari satu kali • Pengukuran berulang pada suatu individu (subyek, unit sampel) Data longitudinal mempunyai kelebihan dibandingkan data yang hanya dikumpulkan satu kali saja (cross-sectional). Keuntungan ini dapat diilustrasikan seperti pada Gambar 7.1. Akan lebih mudah melihat informasi bahwa kemampuan membaca semakin naik atau semakin menurun seiring dengan umur bila individu diamati lebih dari satu kali. Jenis data yang berkaitan dengan data longitudinal diantaranya adalah: 65
66
b b
b b
b
b b
b
b
b
Kemampuan Membaca
Kemampuan Membaca
7.2. Deskripsi Data longitudinal
b b
b b
b
b
b
Umur Gambar 7.1: Data longitudinal
b
b
b
Umur
• Data Panel • Data Survival, Antar Kejadian (Event History) • Data Runtun Waktu Beberapa keuntungan menggunakan data longitudinal dibandingkan dengan data cross-sectional: • Dapat digunakan untuk mengetahui pola perubahan • Setiap individu dapat menjadi kontrol bagi dirinya sendiri • Dapat membedakan efek dari umur dengan efek dari cohort maupun efek dari periode • Memungkinkan untuk meneliti kausalitas Secara umum data longitudinal mempunyai struktur seperti pada Tabel 7.1. Seperti halnya dalam semua metode statistika, sebelum melakukan analisis perlu dilakukan eksplorasi data. Prinsip eksplorasi data longitudinal di antaranya adalah: • tampilkan sebanyak mungkin data mentah daripada hanya ringkasannya • tonjolkan pola atau ringkasannya • identifikasilah baik pola cross-sectional maupun longitudinal • identifikasilah individu atau observasi yang tidak biasa (outliers)
67
7.2. Deskripsi Data longitudinal
Tabel 7.1: Bentuk umum data longitudinal subyek 1 1 .. . 1 2 2 .. .
observasi waktu 1 t11 2 t12 .. .. . . n1 t1n1 1 t21 2 t22 .. .. . .
response kovariat y11 x111 y12 x121 .. .. . . y1n1 x1n1 1 y21 x211 y22 x221 .. .. . .
... ... .. .
x11p x12p .. .
... ... ... .. .
x1n1 p x21p x22p .. .
2 .. .
n1 .. .
t2n1 .. .
y2n1 .. .
x2n1 1 .. .
... .. .
x2n1 p .. .
m m .. .
1 2 .. .
t21 t22 .. .
ym1 ym2 .. .
xm11 xm21 .. .
... ... .. .
xm1p xm2p .. .
m
nm
t2n1
ymn1
x2m1 1
...
xmn1 p
Paket statistik standard biasanya menyediakan fasilitas untuk data eksplorasi seperti scatter plot matrix dan lowess plot. Dalam bagian ini penggunaan dan interpretasi eksplorasi data longitudinal akan dijelaskan dalam contoh namun teknis pengerjaannya tidak dibahas secara khusus. Contoh 7.1 Suatu studi dilakukan untuk merehabilitasi pasien stroke. Ada 3 perlakuan dalam studi ini, yaitu: A Terapi yang baru B Program rehabilitasi yang sekarang digunakan dalam rumah sakit yang sama C Program perawatan biasa yang dilakukan dalam rumah sakit yang lain Setiap kelompok perlakuan terdiri dari 8 pasien yang diamati selama 8 minggu. Respon yang diperoleh adalah Bartel index, yaitu skor yang menunjukkan kemampuan fungsional pasien, nilai yang tinggi menunjukkan kemampuan yang baik (maksimum 100). Data longitudinal dapat disusun seperti dalam bentuk melebar, yaitu satu baris data menunjukkan satu individu yang dapat diobservasi beberapa kali seperti pada Tabel 7.2. Data longitudinal dapat pula disusun memanjang yang mana satu baris menunjukkan satu observasi pada suatu individu (Tabel 7.3). Bentuk data memanjang ini merupakan bentuk yang biasa digunakan dalam komputasi data longitudinal yang notasi secara umum adalah seperti pada Tabel 7.1.
68
7.2. Deskripsi Data longitudinal Tabel 7.2: Data longitudinal bentuk melebar satu baris per-individu subyek
1 45 20 50 25 100 20 30 30 40 65 30 25 45 15 35 40 20 35 35 45 45 25 25 15
2 45 25 50 25 100 20 35 35 55 65 30 35 45 15 35 40 20 35 35 65 65 30 25 35
respon (pada minggu ke-) 3 4 5 6 7 45 45 80 80 80 25 25 30 35 30 55 70 70 75 90 35 40 60 60 70 100 100 100 100 100 30 50 50 60 85 35 40 50 60 75 45 50 55 65 65 60 70 80 85 90 70 70 80 80 80 40 45 65 85 85 35 35 40 45 45 80 80 80 80 80 10 10 10 20 20 35 45 45 45 50 40 55 55 55 60 30 30 30 30 30 35 40 40 40 40 35 40 40 40 45 65 65 80 85 95 70 90 90 95 95 30 35 40 40 40 30 30 30 30 35 35 35 40 50 65
8 90 50 90 80 100 95 85 70 90 80 85 45 80 20 50 65 30 40 45 100 100 40 40 65
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
kovariat (perlakuan) A A A A A A A A B B B B B B B B C C C C C C C C
60
B C
20
40
skor
80
A
2
4
6
8
minggu Gambar 7.2: Profile plot Bartel Index selama waktu penelitian dan lowess plot setiap kelompok terapi
69
7.2. Deskripsi Data longitudinal Tabel 7.3: Data longitudinal bentuk memanjang satu baris satu observasi subyek 1 1 1 1 1 1 1 1 .. . 9 9 9 9 9 9 9 9 .. .
observasi (minggu ke-) 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
respon 45 45 45 45 80 80 80 90
kovariat (perlakuan) A A A A A A A A
... 40 55 60 70 80 85 90 90
B B B B B B B B
...
Respon dari data longitudinal yang berupa Bartel index ini dapat ditampilkan berupa profile plot yaitu plot nilai respon untuk tiap-tiap individu. Untuk melihat kecenderungan kelompok-kelompok dalam data, yang dalam contoh ini adalah jenis terapi A, B dan C, dapat ditampilkan plot yang mewakili masing-masing kelompok menggunakan fungsi penghalusan (smoothing) nonparametrik lowess. Gambar 7.2 adalah profile plot dari respon Bartel index dengan lowess plot untuk kelompok terapi A, B dan C. Terlihat bahwa terapi A mempunyai kemiringan yang paling menonjol dibandingkan terapi yang lain. Untuk melihat korelasi antar minggu pengamatan dihitung korelasi bivariat untuk 8 minggu dan scatterplot matrix nya seperti pada Gambar 7.3. Terlihat bahwa pada minggu pengamatan yang berdekatan korelasi linear antara nilai Bartel index cukup besar.
Untuk data yang berukuran cukup besar, baik banyaknya individu maupun observasi berulangnya dapat digunakan profile plot untuk semua individu dan plot beberapa individu yang dipilih secara random. Sebagai contoh, Gambar 7.4 adalah plot antara banyaknya sel CD4+ dengan waktu sejak zeroconversion untuk penderita AIDS. Karena individu cukup banyak (369 individu dengan total observasi 2376) dalam plot itu selain plot untuk keseluruhan individu, plot untuk beberapa individu yang dipilih secara random juga ditampilkan. Lowess plot keseluruhan individu untuk melihat kecenderungan banyaknya del CD4 juga ditam-
70
7.3. Model Regresi Data longitudinal 20
80
0,88
0,83
0,79
0,71
0,62
0,55
m2
0,92
0,88
0,85
0,79
0,70
0,64
m3
0,95
0,91
0,85
0,77
0,70
m4
0,92
0,88
0,83
0,77
m5
0,97
0,91
0,88
m6
0,96
0,93
m7
0,98
100 20 100
20
0,93
20 100
80
20
20
20
20 80
20
20 100
m1
80
100
20
20
m8 20
80
20 80
20 80
20
80
Gambar 7.3: Scatterplot matrix Bartel Index untuk pasangan 8 minggu pengamatan dan nilai korelasinya
pilkan. Terlihat bahwa banyaknya sel CD4+ menurun sejak pertama kali pasien AIDS didiagnosis menderita penyakit tersebut.
7.3 Model Regresi Data longitudinal Seperti halnya model regresi biasa, permasalahan ilmiah diformulasikan sebagai model regresi yang terdiri dari variabel respon dan variabel penjelas. Dua hal penting yang perlu diperhatikan, secara alamiah dalam data longitudinal terdapat variabel yang berubah sepanjang waktu (time-varying explanatory variables) dan korelasi (asosiasi) karena pengukuran berulang pada individu yang sama, atau observasi berulang. Dua hal ini harus dimasukkan dalam pemodelan. Berikut adalah notasi yang digunakan dalam analisis data longitudinal merujuk pada bentuk umum data longitudinal (Tabel 7.1):
71
2500 1500 500 0
Banyaknya sel CD4+
7.3. Model Regresi Data longitudinal
−2
0
2
4
Lama (tahun) sejak seroconversion
Gambar 7.4: Contoh eksplorasi data dengan plot • Individu: i = 1, . . . , m • Observasi pada individu i: jh = 1, . . . , ni P • Total observasi: N = m i=1 ni
• Waktu observasi aktual: tij • Variabel respon: variabel random Yij Yi = (Yi1 , . . . , Yini ) Y = (Y1 , . . . , Ym )
respon observasi yij yi = (yi1 , . . . , yini ) y = (y1 , . . . , ym )
• Variabel independen: xij = (xij1 , . . . , xijp )T , vektor berukuran p × 1 Xi = (xi1 , . . . , xini ), matriks berukuran ni × p • Mean Yi untuk individu i: E(Yi ) = µi
72
7.3. Model Regresi Data longitudinal
• Variansi Yi ; Matriks Kovariansi ni × ni untuk individu i: vi11 . . . vi1ni Var(Yi ) = . . . vijk . . . vini 1 . . . vini ni dengan vijk = Cov(Yij , Yik )
7.3.1 Naive Model Model ini mengasumsikan semua observasi independen, kemudian model dianalisis seperti regresi linear ganda biasa. Model ini sering disebut pula sebagai pooled analysis, Contoh 7.2 Merujuk ke contoh 7.1, naive model untuk data Bartel index dari hasil terapi pasien stroke adalah sebagai berikut
E(Yi | Xi ) = β0 + β1 X1i + β2 X2i + β3 X3i , dengan
(
1 0 ( 1 X2i = 0
X1i =
i = 1, . . . , N
(7.1)
i mendapat perlakuan B i mendapat perlakuan selain B i mendapat perlakuan C i mendapat perlakuan selain C
dan X3i = 1, 2, . . . , 8 adalah minggu pengamatan; banyaknya observasi N = 24 × 8 = 192, yang diperoleh dari 24 pasien (terbagi dalam 3 grup perlakuan) dan diamati selama 8 minggu. Struktur data yang digunakan adalah seperti pada Tabel 7.1 atau 7.3. Karena terapi kemungkinan berinteraksi dengan lamanya minggu pengamatan, model yang memuat interaksi antara terapi dengan waktu menjadi alternatif naive model yang lain seperti di bawah ini: E(Yi | Xi ) = β0 + β1 X1i + β2 X2i + β3 X3i + β4 (X1i × X3i ) + β5 (X2i × X3i ),
(7.2) i = 1, . . . , N
dengan (X1i × X3i ) dan (X2i × X3i ) adalah interaksi antara perlakuan dengan waktu. Tabel 7.4 adalah hasil estimasi parameter kedua model tersebut di atas.
73
7.3. Model Regresi Data longitudinal Tabel 7.4: Hasil estimasi naive model (7.1) dan model (7.2) Parameter Model (7.1): β0 β1 β2 β3 Model (7.2): β0 β1 β2 β3 β4 β5
Estimasi
SE
36,84 -5,63 -12,11 4,76
3,971 3,715 3,715 0,662
29,82 3,35 -0,02 6,32 -1,99 -2,69
5,774 8,166 8,166 1,143 1,617 1,617
7.3.2 Model Linear Umum untuk Data Longitudinal Model linear umum merupakan perluasan dari model linear (ANAVA, Regresi, ANACOVA) dengan bentuk variansi-kovariansi yang lebih umum. Estimasi parameter untuk model ini dapat dilakukan dengan Generalized Least-Squares atau dengan Maximum Likelihood Estimation atau perluasan dari kedua metode tersebut, terutama dalam memodelkan matriks variansi-kovariansinya. Dalam model linear umum ini, data observasi yi merupakan realisasi dari variabel random Yi yang dimodelkan sebagaimana berikut Yi = Xi β + ǫi
(7.3)
dengan Xi adalah ni × p matriks variabel independen β adalah vektor-p koefisien regresi, ǫi adalah vektor ni sesatan (error) yang berdistribusi N (0, Vi ) dengan Vi adalah ni × ni matriks kovariansi untuk individu i. Model (7.3) dapat ditulis sebagai satu model (tidak menunjuk ke i tertentu) dengan menggabungkan semua observasi menurut kolom (variabel independen dan respon) menjadi Y = Xβ + ǫ
(7.4)
dengan ǫ ∼ N (0, V). Karena antar subyek dianggap independen maka σ 2 V adalah blok diagonal matriks yang terdiri atas n × n blok σ 2 Vi (matriks variansi vektor observasi pada suatu subyek). Dikenal banyak bentuk korelasi antar dua observasi pada satu subyek misalnya korelasi uniform dan eksponensial. Korelasi Uniform mempunyai bentuk Vi = (1 − ρ)I + ρI
(7.5)
74
7.3. Model Regresi Data longitudinal
dengan ρ adalah korelasi I adalah matrik identitas, Jb adalah matriks ni × ni dengan anggota semuanya 1. Dalam model korelasi ini ini antar observasi pada satu individu dianggap tidak independen namun besar korelasinya sama yang diekspresikan sebagai ρ. Korelasi Eksponensial mempunyai bentuk vjk = σ 2 exp(−φ(| tj − tk |))
(7.6)
dengan vjk = Cov(Yij , Yik ). Korelasi eksponensial mengasumsikan bahwa korelasi antar dua pengukuran akan menurun menuju nol seiring dengan membesarnya jarak antar observasi. Contoh 7.3 Merujuk ke contoh 7.1 dan 7.2, dalam contoh ini digunakan model (7.4) untuk menganalisis data Bartel index pada pasien stroke. Model yang digunakan sama seperti (7.1) dan (7.2) namun model korlasinya ditentukan uniform dan eksponensial bukan model korelasi independen Hasil estimasinya dapat dilihat pada Tabel 7.5 ditampilkan bersama dengan estimasi naive model contoh 7.2. Nilai AIC model (7.2) dengan korelasi eksponensial Tabel 7.5: Hasil estimasi naive model dan model linear umum dengan bentuk korelasi uniform dan eksponensial Parameter Naive Model (7.1): β0 β1 β2 β3 Model (7.2): β0 β1 β2 β3 β4 β5
Estimasi (SE) korelasi uniform korelasi eksponensial
36,84 (3,971) -5,63 (3,715) -12,11 (3,715) 4,76 (0,662) (AIC=1707,897)
36,84( 7,308) -5,63(10,177) -12,11(10,177) 4,76( 0,282) (AIC=1467,559)
39,96 (7,363) -9,75 (9,935) -16,30 (9,935) 4,62 (0,490) (AIC=1324,897)
29,82 (5,774) 3,35 (8,166) -0,02 (8,166) 6,32 (1,143) -1,99 (1,617) -2,69 (1,617) (AIC=1703,614)
29,82( 7,497) 3,35(10,603) -0,02(10,603) 6,32( 0,467) -1,99( 0,661) -2,69( 0,661) (AIC=1452,715)
33,39( 7,937) -0,12(11,225) -6,23(11,225) 6,08( 0,844) -2,14( 1,193) -2,24( 1,193) (AIC=1320,321)
adalah yang terkecil dibandingkan yang lain. Jadi model dengan interaksi antara terapi dengan lama minggun pengamatan dan dengan korelasi antar pengamatan yang semakin mengecil (korelasi eksponensial) adalah yang terbaik.
Data dengan distribusi respon yang lain, misalnya respon biner, cacah dapat dianalisis dengam metode GLM untuk data berkorelasi (data longitudinal) mi-
75
7.4. Latihan
salnya Generalized Estimating Equation (GEE). Alternatif pemodelan yang lain seperti random effects model juga dimungkinkan.
7.4 Latihan 7.1. Mengacu soal nomor 2.6 pada halaman 11, dengan anggapan ada interaksi antara perlakuan dengan waktu, tuliskan model regresi data longitudinal yang perlu untuk dianalisis! 7.2. Tinjau model Yij = β0 + βxij + ǫij ,
j = 1, . . . , n; i = 1, . . . , m
dengan variabel random ǫij mempunyai mean 0. ˆ yaitu estimasi kuadrat terkecil untuk β (a) Carilah β, (b) Tunjukkan bahwa βˆ merupakan estimasi yang bias bila model yang benar adalah Yij = β0 + βC xi1 + βL (xij − xi1 ) + ǫij 7.3. Diketahui data 30 tikus percobaan yang diberi perlakuan secara random ke dalam tiga grup perlakuan (Tabel 7.6). Grup 1 adalah kontrol berupa air minum biasa, grup 2 adalah thiouracil dalam air minum tikus, grup 3 adalah thyroxin dalam air minum tikus. Thyroxin berpengaruh meningkatkan metabolisme tubuh. Sebailknya thiouracil akan menurunkan metabolisme tubuh. Berat badan tikus diukur dalam interval waktu mingguan sampai mingggu ke-empat. Variabel grup adalah perlakuan, tikus adalah nomor identitas tikus dalam grup bb0, bb1, bb2, bb3, bb4 adalah berat badan tikus mulai awal penelitian samapi minggu ke-empat. (a) Lakukan eksplorasi pada data longitudinal tersebut! (b) Lakukan analisis data longitudinal dan ambil kesimpulan analisisnya!
76
7.4. Latihan
Tabel 7.6: Data berat badan tikus grup 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3
tikus 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7
bb0 57 60 52 49 56 46 51 63 49 57 61 59 53 59 51 51 56 58 46 53 59 54 56 59 57 52 52
bb1 86 93 77 67 81 70 71 91 67 82 86 80 79 88 75 75 78 69 61 72 85 71 75 85 72 73 70
bb2 114 123 111 100 104 102 94 112 90 110 109 101 100 100 101 92 95 93 78 89 121 90 108 116 97 97 105
bb3 139 146 144 129 121 131 110 130 112 139 120 111 106 111 123 100 103 114 90 104 146 110 151 148 120 116 138
bb4 172 177 185 164 151 153 141 154 140 169 129 122 133 122 140 119 108 138 107 122 181 138 189 177 144 140 171
8 Analisis Data Survival 8.1 Tujuan Pembelajaran Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Mengidentifikasi data survival dalam permasalahan epidemiologi dan penelitian kesehatan 2. Menjelaskan fungsi-fungsi yang digunakan dalam data survival 3. Melakukan inferensi untuk fungsi survival menggunakan metode KaplanMeier 4. Melakukan analisis data menggunakan regresi parametrik untuk data survival misalnya dengan model regresi Weibull 5. Melakukan analisis data menggunakan regresi Cox untuk data survival
8.2 Fungsi Survival dan Hazard Fungsi Survival adalah probabilitas satu individu hidup (tinggal dalam suatu status) lebih lama daripada t S(t) = P (T > t) (8.1) S(t) adalah fungsi non-increasing terhadap waktu t dengan sifat ( 1 untuk t = 0 S(t) = 0 untuk t = ∞
77
(8.1)
78
0.0
0.2
0.4
S(t)
0.6
0.8
1.0
8.2. Fungsi Survival dan Hazard
0.0
0.5
1.0
1.5
2.0
t
Gambar 8.1: Grafik dua fungsi survival Fungsi survival S(t) mempunyai hubungan dengan distribusi kumulatif F (t) sebagai berikut S(t) = 1 − F (t) (8.1) Penduga untuk S(t) bila data tidak tersensor ˆ = s S(t) N
(8.2)
dimana s adalah banyaknya individu yang masih hidup lebih lama dari t ; N adalah total banyaknya individu Fungsi Hazard menunjukkan tingkat (rate) terjadinya suatu event yang didefinisikan sebagai P (t ≤ T < t + ∆t | T ≥ t) ∆t→0 ∆t
h(t) = lim
(8.2)
Tidak seperti probabilitas yang nilainya antara 0 sampai dengan 1, fungsi hazard dapat bernilai berapa saja asalkan non-negative, h(t) ≥ 0. Gambar 8.2, 8.3, 8.4 dan 8.5 adalah contoh beberapa macam fungsi hazard.
79
0
1
2
h(t)
3
4
5
8.2. Fungsi Survival dan Hazard
0.0
0.5
1.0
1.5
2.0
t
0
1
2
h(t)
3
4
5
Gambar 8.2: Fungsi hazard konstan
0.0
0.5
1.0
1.5
t
Gambar 8.3: Fungsi hazard naik
2.0
80
0
1
2
h(t)
3
4
5
8.2. Fungsi Survival dan Hazard
0.0
0.5
1.0
1.5
2.0
t
0
1
2
h(t)
3
4
5
Gambar 8.4: Fungsi hazard naik-turun
0.0
0.5
1.0
1.5
2.0
t
Gambar 8.5: Fungsi hazard bathtub Fungsi hazard h(t), survival S(t) dan fungsi densitas f (t) mempunyai hubungan sebagai berikut f (t) (8.2) h(t) = S(t)
81
8.3. Kaplan-Meier dan Life Table
Kumulatif integral dari fungsi hazards disebut sebagai Hazard Kumulatif Z t H(t) = h(x)dx (8.2) 0
Fungsi ini mempunyai hubungan dengan S(t) sebagai berikut H(t) = − log S(t)
(8.2)
8.3 Kaplan-Meier dan Life Table Kaplan-Meier merupakan estimator non-parametrik untuk S(t) (sering disebut juga sebagai Product-Limit estimator) ( ˆ = 1Q S(t)
jika t < t1 di ti ≤t (1 − Yi ) jika ti ≤ t
dimana di adalah banyaknya event dan Yi adalah banyaknya individu yang beresiko (number at risk) Variansi dari KM estimator, sering disebut sebagai Greenwood’s formula, adalah ˆ ˆ 2 var[S(t)] = S(t)
X ti ≤t
di Yi (Yi − di )
(8.3)
ˆ Sebagai alternatif (8.3), var[S(t)] dapat diestimasi dari formulasi berikut ˆ ˆ ˆ 2 [1 − S(t)] var[S(t)] = S(t) Y (t)
(8.4)
Nelson-Aalen merupakan estimator untuk fungsi hazard kumulatif H(t) yang merupakan kumulatif dari tingkat kejadian (hazard) sampai periode ke-t: ( 0 jika t < t1 ˆ H(t) = P di jika ti ≤ t ti ≤t Yi yang mempunyai variansi
ˆ H(t)) ˆ Var( =
X di Y2 t ≤t i i
(8.5)
82
8.3. Kaplan-Meier dan Life Table
Contoh 8.1 Diketahui data survival yang dihitung mulai dari awal pemberian perlakuan sampai pasien meninggal sebagai berikut: 10,12,13,15,16,20,20,24,24,26,26,27,39,42, 45,45,48,52,58,60,61,62,73,75,77,104,120 Hitung estimasi Kaplan-Meier dan Nelson-Aalen! Jawab: Hasil hitungan estimasi Kaplan-Meier dan Nelson-Aalen untuk data di atas ada pada Tabel 8.1. Kolom t, d dan Y pada Tabel adalah seperti yang didefinisikan pada rumus KaplanMeier (8.3) maupun Nelson-Aalen (8.5). Tabel 8.1: Estimasi Kaplan-Meier (KM) dan Nelson-Aalen (NA) No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
t 0 10 12 13 15 16 20 24 26 27 39 42 45 48 52 58 60 61 62 73 75 77 104 120
Y 27 27 26 25 24 23 22 20 18 16 15 14 13 11 10 9 8 7 6 5 4 3 2 1
d 0 1 1 1 1 1 2 2 2 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1
1 − d/Y 1 0,963 0,962 0,960 0,958 0,957 0,909 0,900 0,889 0,938 0,933 0,929 0,846 0,909 0,900 0,889 0,875 0,857 0,833 0,800 0,750 0,667 0,500 0,000
ˆ (KM) S(t) 1 0,963 0,926 0,889 0,852 0,815 0,741 0,667 0,593 0,556 0,519 0,481 0,407 0,370 0,333 0,296 0,259 0,222 0,185 0,148 0,111 0,074 0,037 0,000
ˆ H(t) 0 0,037 0,075 0,115 0,157 0,201 0,292 0,392 0,503 0,565 0,632 0,703 0,857 0,948 1,048 1,159 1,284 1,427 1,594 1,794 2,044 2,377 2,877 3,877
ˆ (NA) S(t) 0,963 0,927 0,890 0,854 0,818 0,747 0,676 0,604 0,568 0,531 0,495 0,424 0,387 0,350 0,313 0,276 0,240 0,203 0,166 0,129 0,092 0,056 0,020
Pertama data survival diurutkan, kemudian diambil hanya nilai tunggalnya saja (unique values). Misalnya 20 yang muncul dua kali, hanya diambil satu saja. Sebagai contoh perhitungan, diambil baris kedua dari Tabel 8.1. Pada saat t = 10 masih ada 27 pasien yang belum mendapatkan kejadian dan hanya ada satu saja yang meninggal, jadi Y = 27 ˆ dan d = 1. Estimasi Kaplan-Meier saat t = 10 adalah S(10) = 1 × 0, 963 = 0, 963. ˆ Nilai estimasi hazard kumulatif saat t = 10 adalah H(10) = 1/27 = 0,037, estimasi
83
3 0
0.0
1
2
H(t)
0.4
S(t)
0.8
4
8.3. Kaplan-Meier dan Life Table
0 20
60
100
t
0 20
60
100
t
Gambar 8.6: Plot Estimasi Kaplan-Meier dan Nelson-Aalen. nilai survival dengan Nelson-Aalen menggunakan hubungan antara S(t) dan H(t), yaitu ˆ ˆ ˆ S(t) = exp(−H(t)), atau S(t) = exp(−0,037) = 0,9636. Plot Kaplan-Meier dan Nelson-Aalen dapat dilihat pada Gambar 8.6.
Salah satu permasalahan dalam analisis data survival adalah adanya observasi yang tidak lengkap yang dinamakan tersensor (censored) dan terpotong (truncated). Permasalahan yang sering muncul dalam penelitian prospektif atau cohort biasanya adalah tersensor kanan (right censored), yaitu pada saat akhir penelitian, subyek belum mendapatkan kejadian. Estimasi Kaplan-Meier maupun NelsonAalen dapat digunakan untuk data yang tidak lengkap seperti ini tanpa perlu mengestimasi terlebih dahulu data yang tersensor. Contoh 8.2 Dipunyai data survival pasien untuk dua kelompok perlakuan sebagai berikut: Grup 1 (n = 21) perlakuan 6, 6, 6, 7, 10, 13, 16, 22, 23, 6+, 9+, 10+, 11+, 17+, 19+, 20+, 25+, 32+, 32+, 34+, 35+
Grup 2 (n = 21) placebo 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8, 8, 11, 11, 12, 12, 15, 17, 22, 23
tanda + menunjukkan tersensor kanan
Dapat dihitung estimasi Kaplan-Meier untuk kelompok terapi adalah seperti pada Tabel 8.2. Pada data yang tersensor kanan, nilai t diambil untuk yang mendapatkan kejadian saja, dengan kata lain nilai t yang diberi tanda + tidak dipakai dalam penghitungan Kaplan-Meier (kecuali ada nilai yang sama yang tidak tersensor, misalnya 6 dan 10 dalam contoh ini).
84
8.4. Membandingkan Distribusi Survival Tabel 8.2: Estimasi Kaplan-Meier untuk grup terapi Y 21 17 15 12 11 7 6
ˆ S(t) 0.857 0.807 0.753 0.690 0.627 0.538 0.448
d 3 1 1 1 1 1 1
0.8
1.0
t 6 7 10 13 16 22 23
0.2
0.4
S(t)
0.6
terapi
0.0
placebo
0
5
10
15
20
t
Gambar 8.7: Plot Estimasi Kaplan-Meier untuk terapi dan placebo data tersensor kanan. Plot kurva Kaplan-Meier untuk terapi maupun placebo dapat dilihat pada Gambar 8.7. Grup terapi terlihat lebih baik, atau mempunyai peluang survival yang lebih tinggi,dibandingkan grup placebo.
8.4 Membandingkan Distribusi Survival Membandingkan dua populasi yang masing-masing mempunyai fungsi survival S1 (t) dan S2 (t). Hipotesis nol untuk uji ini adalah H0 : S1 (t) = S2 (t) dengan
8.4. Membandingkan Distribusi Survival
85
hipotesis alternatif H1 : S1 (t) > S2 (t) H1 : S1 (t) < S2 (t) H1 : S1 (t) 6= S2 (t) Untuk menguji hipotesis tersebut beberapa Metode Non-parametrik untuk data yang tidak tersensor seperti metode Wilcoxon, Mann-Whitney dan Sign test dapat digunakan. Sedangkan untuk data tersensor prosedur yang dapat digunakan diantaranya: Gehan’s generalized Wilcoxon test, the Cox-Mantel test, the logrank test, Peto and Peto’s generalized Wilcoxon test, Cox’s F-test, Gehan’s generalized Wilcoxon test, the Cox-Mantel test, the logrank test (1972), Peto and Peto’s generalized Wilcoxon test, dan Cox’s F-test. Satu metode yang akan dibahas dalam bagian ini adalah Log-rank Test. Log-rank Test Prosedur ini didasarkan pada banyaknya observed dan expected event pada setiap event-time. Untuk log-rank test dengan 2 grup yang ingin dibandingkan statistik pengujinya adalah: W =
(O1 − E1 )2 (O2 − E2 )2 + E1 E2
(8.6)
dengan W ∼ χ2 (df = 1). H0 ditolak dengan tingkat signifikasni α bila W > χ2 (1 − α, df = 1). Contoh 8.3 Merujuk ke Contoh 8.2, akan diuji apakah fungsi survival grup terapi berbeda dengan grup placebo. Disusun terlebih dahulu tabel seperti pada Tabel 8.3 untuk digunakan dalam penghitungan 8.6. Ekspektasi e1 dan e2 diperoleh dengan cara mengalikan probabilitas kematian pada tiap-tiap grup (Y1 /(Y1 + Y2 ) dan Y2 /(Y1 + Y2 ) ) dikalikan total kejadian (d1 + d2 ), untuk masing-masing waktu kejadian (masing-masing baris). Kemudian pada baris terakhir diperoleh total observasi dan total ekspektasi untuk masing-masing grup. Diperoleh statistik
W
= =
(O1 − E1 )2 (O2 − E2 )2 + E1 E2 (9 − 19, 26)2 (21 − 10, 74)2 + = 15,267 19, 26 10, 74
yang jauh lebih besar dari nilai daerah kritik 3,8414 atau mempunyai p-value yang cukup kecil. jadi dapat disimpulkan H0 ditolak atau dua kurva survival tersebut berbeda.
86
8.5. Model Regresi Data Survival Tabel 8.3: Penghitungan untuk Uji log-rank t 1 2 3 4 5 6 7 8 10 11 12 13 15 16 17 22 23 Total
d1 0 0 0 0 0 3 1 0 1 0 0 1 0 1 0 1 1 9
d2 2 2 1 2 2 0 0 4 0 2 2 0 1 0 1 1 1 21
Y1 21 21 21 21 21 21 17 16 15 13 12 12 11 11 10 7 6
Y2 21 19 17 16 14 12 12 12 8 8 6 4 4 3 3 2 1
e1 (21/42) × 2 (21/40) × 2 (21/38) × 1 (21/37) × 2 (21/35) × 2 (21/33) × 3 (17/29) × 1 (16/28) × 4 (15/23) × 1 (13/21) × 2 (12/18) × 2 (12/16) × 1 (11/15) × 1 (11/14) × 1 (10/13) × 1 (7/9) × 2 (6/7) × 2 19,26
e2 (21/42) × 2 (19/40) × 2 (17/38) × 1 (16/37) × 2 (14/35) × 2 (12/33) × 3 (12/29) × 1 (12/28) × 4 (8/23) × 1 (8/21) × 2 (6/18) × 2 (4/16) × 1 (4/15) × 1 (3/14) × 1 (3/13) × 1 (2/9) × 2 (1/7) × 2 10,74
8.5 Model Regresi Data Survival Permasalahan dalam biostatistika dan epidemiologi biasanya melibatkan lebih dari satu variabel atau faktor. Demikian pula untuk data survival, diperlukan model regresi untuk data survival yang dapat digunakan untuk permasalahan yang lebih luas dari hanya pembandingan kurva survival saja. Model regresi data survival tersebut di antaranya • AFT (accelerated failure-time model) • model hazard proporsional • model hazard aditif Dalam bagian ini akan dibahas dua model regresi survival yaitu AFT dan model hazard proporsional, khususnya model regresi Cox. Setiap model regresi survival dapat direpresentasikan sebagai fungsi hazard, fungsi survival maupun fungsi hazard kumulatif. Berikut ini berturut-turut adalah fungsi hazard, survival dan hazard kumulatif untuk model AFT. h(t | X) = h0 (exp(Xβ)t) exp(Xβ),
(8.7)
S(t | X) = S0 (exp(Xβ)t),
(8.8)
87
8.5. Model Regresi Data Survival
H(t | X) = H0 (exp(Xβ)t)
(8.9)
dengan X adalah matriks (n × p) dari variabel penjelas; β T = (β1 . . . βp ) adalah vektor (p × 1) parameter regresi; h0 adalah baseline hazard, H0 adalah baseline hazard kumulatif dan S0 adalah baseline survival. Model AFT juga dapat direpresentasikan sebagai log T sebagai berikut log T = µ + Xα + σǫ
(8.10)
dengan αT = (α1 . . . αp ) dan µ adalah parameter regresi; ǫ adalah suku error berdistribusi tertentu dan σ > 0 adalah suatu parameter skala. Model hazard proporsional didasarkan pada asumsi bahwa proporsi antara dua kelompok atau dua orang mempunyai hazard yang tetap dan independen terhadap waktu. Misalkan ada dua orang yang masing-masing mempunyai hazard λ1 = 0, 1 dan λ2 = 0, 3, maka hazard ratio antara dua orang tersebut adalah: λ2 λ1 0, 3 = =3 0, 1
HR =
Model hazard proporsional dapat dimodelkan secara paramterik maupun non tau semi-parametrik. Model hazard proporsional semi-parametrik sering dinamakan sebagai Model regresi Cox. Berikut ini berturut-turut adalah fungsi hazard, survival dan hazard kumulatif untuk model regresi Cox. h(t | X) = h0 (t)exp(Xβ)
(8.11)
S(t | X) = S0 (t)exp(Xβ )
(8.12)
H(t | X) = H0 (t) exp(Xβ)
(8.13)
dengan X, β, h0 , S0 dan H0 sama seperti yang didefinisikan pada model AFT. Parameter dalam regresi Cox dapat diinterpretasikan sebagai hazard ratio. Misalkan diberikan model regresi Cox dengan satu variabel independen h(t | x) = h0 (t) exp(xβ) dengan ( 0 placebo x = 1 obat baru
88
8.6. Latihan
maka hazard ratio (HR) untuk hazard obat baru terhadap placebo adalah h(t | x = 1) h(t | x = 0) h0 (t) exp(1 × β) = h0 (t) exp(0 × β) = exp(β)
HR =
Interpretasinya, jika β = 0 maka obat baru dan placebo sama efeknya. Namun jika β < 0 maka obat baru memberikan efek yang lebih baik daripada placebo (resiko kematian lebih rendah). Kemudian jika β > 0 obat baru memberikan efek yang lebih buruk daripada placebo (resiko kematian lebih tinggi) Secara umum nilai estimasi β dapat digunakan untuk mengidentifikasi faktor resiko (risk factors, prognostic factors) yang berkaitan dengan variabel dependen time-to-event T . Kebanyakan program statistik standar seperti SPSS, R, STATA, SAS dan Minitab dapat mengestimasi nilai βˆ dan standard error nya.
8.6 Latihan 8.1. Diketahui T berdistribusi Uniform ( 1/θ untuk 0 ≤ t ≤ θ f (t) = 0 t yang lain (i) fungsi survival S(t); dan (ii) fungsi hazard h(t) untuk variabel random tersebut! Carilah:
8.2. Diketahui data survival sebagai berikut: grup 1 : 5 1 2 2 7 6 grup 2 : 8+ 10 4+ 4 3+ dengan ”+” adalah tanda untuk data tersensor kanan. (a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dan Nelson-Aalen untuk masing-masing grup (b) Ujilah bahwa survival grup 2 lebih besar daripada grup 1 dengan menggunakan logrank test (α = 0,025) 8.3. Diperoleh studi tentang mortalitas akibat penyakit kronis di suatu klinik. Dari masing-masing grup yaitu grup yang mempunyai riwayat penyakit kronis (grup 2) dan grup yang tidak mempunyai riwayat riwayat penyakit kronis (grup 1) diperoleh data
89
8.6. Latihan Grup 1 (n = 25) 12,3+, 5,4, 8,2, 12,2+, 11,7, 10,0, 5,7, 9,8, 2,6, 11,0, 9,2, 12,1+, 6,6, 2,2, 1,8, 10,2, 10,7, 11,1, 5,3, 3,5, 9,2, 2,5, 8,7, 3,8, 3,0
Grup 2 (n = 25) 5,8, 2,9, 8,4, 8,3, 9,1, 4,2, 4,1, 1,8, 3,1, 11,4, 2,4, 1,4, 5,9, 1,6, 2,8, 4,9, 3,5, 6,5, 9,9, 3,6, 5,2, 8,8, 7,8, 4,7, 3,9
tanda + menunjukkan tersensor kanan
(a) Hitunglah estimasi fungsi survival menggunakan Kaplan-Meier dan gambarlah estimasi fungsinya (b) Ujilah bahwa survival kedua grup tersebut berbeda dengan menggunakan logrank test (α = 0,025) (c) Gunakan regresi Cox untuk menganalisis data tersebut, dan bandingkan hasilnya dengan uji log-rank 8.4. Data di bawah ini adalah lama hidup 42 pasien leukemia yang mana setengah di antaranya mendapatkan terapi baru dan yang lainnya mendapatkan terapi standar. Variabel ID adalah nomor identitas pasien; lama adalah lama survival dalam minggu; relapse adalah indikator meninggal atau tidak (1=meninggal, 0=tidak); jk adalah jenis kelamin (1=laki-laki, 0=perempuan); log WBC adalah nilai log dari banyaknya sel darah putih; dan Rx adalah terapi (1=terapi standar, 0=terapi baru). (a) Lakukan analisis KM untuk variabel terapi! (b) Kategorikan variable log WBC menjadi: rendah jika (02,30), sedang jika (2,313,00) atau tinggi jika (> 3,00). Lakukan analisis KM untuk variabel bentukan dari log WBC ini! (c) Gunakan regresi untuk data survival (regresi Cox atau yang lain) untuk menganalisis pengaruh terapi, log WBC dan jenis kelamin!
90
8.6. Latihan
Tabel 8.4: Data lama survival pasien lekuemia ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
lama 35 34 32 32 25 23 22 20 19 17 16 13 11 10 10 9 7 6 6 6 6 23 22 17 15 12 12 11 11 8 8 8 8 5 5 4 4 3 2 2 1 1
relapse 0 0 0 0 0 1 1 0 0 0 1 1 0 0 1 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
jk 1 1 1 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 0 0 1 1 0 1 1 1 1 1 1 1
log WBC 1.45 1.47 2.20 2.53 1.78 2.57 2.32 2.01 2.05 2.16 3.60 2.88 2.60 2.70 2.96 2.80 4.43 3.20 2.31 4.06 3.28 1.97 2.73 2.95 2.30 1.50 3.06 3.49 2.12 3.52 3.05 2.32 3.26 3.49 3.97 4.36 2.42 4.01 4.91 4.48 2.80 5.00
Rx 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
9 Konsultasi Statistika 9.1 Tujuan Pembelajaran Setelah selesai melakukan pembelajaran pada bagian ini, mahasiswa diharapkan dapat: 1. Menjelaskan aktivitas konsultasi statistik 2. Melakukan konsultasi statistik dengan klien adalah pelaku penelitian di bidang epidemiologi, kesehatan dan ilmu hayati 3. Melakukan analisis data dengan menggunakan suatu paket statistik 4. Memanfaatkan teknologi informasi dalam kegiatan konsultasi statistik 5. Mengidentikasi metode yang tepat untuk suatu permasalahan atau data dalam bidang epidemiologi, kesehatan dan ilmu hayati, melakukan analisis data dan mengkomunikasikannya hasilnya
9.2 Konsultan Statistik Konsultan Statistik merupakan profesi yang mungkin akan menjadi pilihan lulusan program studi Statistika. Permasalahan yang dikonsultasikan oleh klien biasanya adalah: • Desain penelitian dan ukuran sampel • Prosedur analisis statistik yang tepat • Penggunaan program komputer • Interpretasi hasil analisis statistik 91
9.3. Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi
92
Selain konsultasi (consulting) dikenal juga istilah kolaborasi (collaboration). Permasalahan dalam pekerjaan kolaborasi hampir sama dengan konsultasi tetapi dalam kolaborasi biasanya statistisi lebih terlibat dan bertanggung-jawab secara penuh. Dalam suatu proyek penelitian sebagai kolaborator, statistisi biasanya berhak mendapatkan authorship dalam penulisan laporan atau artikel ilmiah. Dari semua aktivitas konsultasi, komunikasi informasi statistik ke bidang lain merupakan tantangan bagi statistisi.
9.3 Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi Dalam pekerjaan konsultasi, statistisi sering memerlukan alat bantu seperti perangkat lunak (software) statistik dan teknologi informasi. Banyak perangkat lunak statistik yang dapat membantu seperti SPSS, Minitab, STATA, SPLUS, SAS, R yang lebih merupakan perangkat lunak untuk keperluan analisis data secara umum, termasuk untuk biostatistika dan epidemiologi. Ada pula perangkat lunak yang khusus untuk pekerjaan di bidang biostatistika dan epidemiologi seperti misalnya EPI-INFO. Tentang penggunakan perangkat lunak ini, ada komentar yang perlu mendapat perhatian The good news is that statistical analysis is becoming easier and cheaper. The bad news is that statistical analysis is becoming easier and cheaper. (Hofacker, 1983) Yang memberi peringatan kepada pengguna perangkat lunak statistik bahwa perangkat lunak hanyalah alat, bisa berguna dan bisa justru berbahaya. Oleh karena itu statistisi seharusnya benar-benar menguasai alat dan metode yang digunakan. Keuntungan menggunakan perangkat lunak statistik dibandingkan melakukan secara manual di antaranya: • Akurasi dan kecepatan • Fasilitas dan metode yang digunakan lebih banyak • Grafik • Fleksibel • Manipulasi variabel mudah • Volume data besar
9.3. Penggunaan Perangkat Lunak Statistika dan Teknologi Informasi
93
Olah
Akses
Data
Presentasi
Analisis
Gambar 9.1: Fasilitas atau Kemampuan yang diperlukan dari Perangkat Lunak Statistik • Transfer data mudah Secara umum perangkat lunak statistik setidaknya mempunyai kemampuan Akses: Memasukkan data (entry data), mengambil data (dari format data yang lain) Olah: Mengurutkan, menyeleksi, mentransformasi, mengambil subset data, menambah data Presentasi: Membuat deskripsi data, tabel, grafik, ringkasan-ringkasan statistik Analisis: Melakukan analisis data berdasarkan teori, metode-metode statistika tertentu atau metode-metode kuantitatif yang lain yang dapat digambarkan seperti pada Gambar refgb:alat Tahapan analisis data menggunakan komputer meliputi: 1. Data collection 2. Data entry 3. Data checking 4. Data screening 5. Data analysis
9.4. Ringkasan Metode dan Topik Lanjut
94
6. Checking results 7. Interpretation Selain itu sebagai konsultan statistik di bidang epidemiologi, kedokteran dan ilmu hayati, statistisi setidaknya mengenal berbagai sumber informasi di bidang tersebut, misalnya berupa online-reference dari interner seperti http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed Informasi lain pada jaman teknologi informasi ini lebih mudah dan dapat diakses melalui berbagai fasilitas pencarian di internet.
9.4 Ringkasan Metode dan Topik Lanjut Sebagian besar metode statistik yang digunakan sebagai alat analisis dalam penelitian di bidang kedokteran, ilmu hayati dan epidemiologi dan sebagian diantaranya sudah dibahas dalam diktat ini dapat diringkas seperti pada Tabel 9.1. Masih banyak metode lain yang tidak semuanya disebutkan dalam ringkasan. Misalnya metode-metode nonparametrik padanan metode parametrik di atas. Selain itu, masih banyak masalah yang memerlukan pengembangan metode baru atau modifikasi metode. Misalnya beberapa desain seperti case-cohort, casecontrol memerlukan modifikasi metode regresi logistik dan regresi Cox.
9.5 Latihan 9.1. Apakah saudara pernah melakukan kegiatan semacam konsultasi statistika (profit maupun non-profit)? Bila pernah, sebutkan dalam bidang masalah apa (epidemologi, pertanian, teknik, dst.) dan metode statistik yang digunakan (Pilih satu saja bila pernah melakukan lebih dari satu kali kegiatan konsultasi). 9.2. Carilah klien yang mempunyai permasalahan penelitian atau pekerjaan di bidang epidemiologi, kedokteran atau ilmu hayati. Untuk lingkungan di perguruan tinggi klien dapat berasal dari fakultas kedokteran, kesehatan masyarakat, keperawatan, farmasi, kedokteran gigi, biologi dan kedokteran hewan. Dapat juga dari instansi atau lembaga penelitian di bidang kesehatan. Lakukan konsultasi dengan klien, tuliskan laporan dan presentasikan. 9.3. Sebuah studi akan dilakukan untuk mengetahui apakah manajemen (penanganan) terpadu untuk anak balita sakit memang efektif meningkatkan cakupan banyaknya anak yang tertangani di puskesmas, meningkatkan kepuasan
9.5. Latihan
95
pasien terhadap pelayanan kesehatan di puskesmas dan mengurangi mortalitas balita. Apabila saudara diminta menjadi konsultan statistik studi ini apa saja yang direncanakan mulai dari desain studi sampai dengan kemungkinan analisis yang dapat digunakan 9.4. Dari hasil pencarian di pubmed central1 , metode statistik apa yang saudara temukan paling populer? Menurut saudara mengapa metode tersebut populer digunakan di bidang epidemiologi dan penelitian kesehatan?
1
http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?DB=pubmed
96
9.5. Latihan
Tabel 9.1: Ringkasan Metode Respon Kontinu
Biner
Variabel penjelas Biner Nominal, 2 kategori atau lebih Ordinal Kontinu Nominal dan kontinu Kategorik dan kontinu Kategorik Kontinu
Nominal, 2 kategori atau lebih Ordinal Cacah
Durasi (survival) Respon berkorelasi
Kategorik dan kontinu Nominal Kategorik dan kontinu Kategorik dan kontinu Kategorik Kategorik dan kontinu Biner Kategorik dan kontinu Kategorik dan kontinu
Metode t-test, z-test ANAVA ANAVA Regresi Ganda Analisis Kovariansi Regresi Ganda Tabel kontingensi Regresi Logistik Regresi Logistik, probit atau model dose-response Regresi Logistik Tabel kontingensi Regresi Logistik Nominal Regresi Logistik Ordinal Model Log-linear, Regresi Poisson Regresi Poisson Log-rank test Survival analysis Generalized Estimating equation Multilevels model Analisis Data Longitudinal Analisis Data Panel
Bibliografi Armitage, P. and Colton, T. (1998). Encyclopedia of Biostatistics, John Wiley and Sons, Inc. Beaglehole, R., Bonita, R. and Kjellstr¨om, T. (2000). Basic Epidemiology, World Health Organization. Chow, S. C. (2000). Encyclopedia of Biopharmaceutical Statistics., John Wiley and Sons, Inc. Clayton, D. and Hills, M. (1993). Statistical Models in Epidemiology, Oxford university Press. Hofacker, C, F. (1983). Abuse of statistical packages: the case of the general linear model, Am J Physiol Regul Integr Comp Physiol 245: R299–R302. Kleinbaum, D. G., Kupper, L. L. and Morgenstern, H. (1982). Epidemiologic Research: Principles and Quantitative Methods., Wadsworth, Inc. Last, J. (1995). A Dictionary of Epidemiology, 3rd edn., Oxford University Press. Le, C. T. (2003). Introductory Biostatistics, John Wiley and Sons, Inc.
97