Seminar Nasional Statistika ke-9 Institut Teknologi Sepuluh Nopember, 7 Nopember 2009
PERBANDINGAN REGRESI LOGISTIK DAN MULTIVARIATE ADAPTIVE REGRESSION SPLINE (MARS) UNTUK MENGETAHUI KETEPATAN KLASIFIKASI ANGKA KEJADIAN PENYAKIT INFEKSI TUBERKULOSIS PARU (TB PARU) (STUDI KASUS PROVINSI PAPUA BARAT) 1 1
Maylita Hasyim, 2 Suhartono, 3Sri Pingit Wulandari
Mahasiswa Jurusan Statistika, Institut Teknologi Sepuluh Nopember Jl. Arif Rahman Hakim 1 Surabaya 60111 2,3
Dosen Jurusan Statistika, Institut Teknologi Sepuluh Nopember Jl. Arif Rahman Hakim 1 Surabaya 60111
e-mail : 1
[email protected],
[email protected], 3
[email protected]
Abstrak Dengan adanya peningkatan kasus penularan infeksi tuberkulosis paru di Indonesia yang telah dilaporkan saat ini maka perlu adanya kajian teoritis terkait variabel-variabel yang berpengaruh dan ketepatan klasifikasi terhadap angka kejadian penyakit infeksi tuberkulosis paru (TB Paru), hal ini dimaksudkan agar penderita tuberkulosis paru (TB Paru) di Indonesia dapat diminalkan. Data Riskesdas 2007 menyatakan provinsi Papua Barat sebagai provinsi penyumbang terbanyak angka kejadian tuberkulosis paru (TB Paru) di Indonesia. Oleh karena itu, tujuan dari makalah ini adalah menerapkan dan membandingkan kedua metode klasifikasi yaitu Regresi Logistik dan Multivariate Adaptive Regression Spline (MARS) untuk menjawab permasalahan tuberkulosis paru (TB Paru) di Provinsi Papua Barat sehingga diperoleh model serta ketepatan klasifikasi yang terbaik. Berdasarkan analisa yang telah dilakukan, dapat diketahui bahwa metode MARS lebih baik daripada metode regresi logistik pada kasus klasifikasi angka kejadian penyakit infeksi tuberkulosis paru (TB Paru) di Provinsi Papua Barat. Metode regresi logistik menyatakan bahwa variabel yang berpengaruh meliputi variabel umur dan kebiasaan mengkonsumsi alkohol. Sementara metode MARS menyatakan bahwa variabel yang berpengaruh meliputi variabel umur, konsumsi alkohol, dan pendidikan. Kata Kunci: tuberkulosis paru, Spline (MARS)
regresi logistik, Multivariate Adaptive Regression
1. Pendahuluan Dalam masalah klasifikasi, terdapat dua hal dalam pemodelan statistik, yaitu statistik tradisional (klasik) dan statisik modern. Masalah klasifikasi pada statistik tradisional pertama kali diperkenalkan dan dikembangkan oleh Fisher di tahun 1936 yang dikenal dengan analisis dikriminan linier Fisher. Regresi Logistik merupakan salah satu pemodelan statistik tradisional yang menghasilkan suatu model logistik untuk mengelompokkan obyek ke dalam salah satu dari dua kategori respon. Masalah klasifikasi pada statistik modern sudah memanfaatkan fleksibilitas model dan menduga suatu distribusi di dalam masing-masing kelas yang pada akhirnya menyediakan suatu aturan pengelompokan (Dillon, 1978; Sharma, 1996). Salah satu statistik modern yang memanfaatkan fleksibilitas model di dalam pengklasifikasian adalah metode Multivariate Adaptive Regression Splines (MARS). 1
Regresi Logistik merupakan regresi parametrik yang mempunyai beberapa asumsi yang harus dipenuhi berkaitan dengan skala pengukuran prediktor, keterkaitan antara prediktor, dan distribusi bersama dari prediktor. Sedangkan MARS termasuk regresi nonparametrik yang tidak mempunyai asumsi terkait dengan bentuk kurva tertentu sehingga lebih fleksibel dan diharapkan data sendiri yang mencari bentuk estimasinya (Eubank, 1988). Kedua metode tersebut seringkali digunakan untuk penelitian masalah kesehatan dalam hal klasifikasi dan pemodelan dari variabel-varabel yang berpengaruh. Tuberkulosis (TBC) merupakan masalah kesehatan, baik dari sisi angka kematian (mortalitas), angka kejadian penyakit (morbiditas), maupun diagnosis dan terapinya. Pada tahun 1999, WHO Global Surveillance memperkirakan di Indonesia terdapat 583.000 penderita tuberkulosis baru tiap tahun. Hasil Survey Kesehatan Rumah Tangga (SKRT) tahun 1995 menunjukkan bahwa tuberkulosis merupakan penyebab kematian nomor tiga setelah penyakit kardiovaskuler dan penyakit saluran pernapasan pada semua golongan usia dan nomor satu dari golongan infeksi (Depkes, 2003). Dengan adanya peningkatan kasus penularan infeksi tuberkulosis paru yang telah dilaporkan saat ini maka perlu adanya kajian teoritis terkait tentang penentuan variabelvariabel yang berpengaruh terhadap angka kejadian tuberkulosis paru serta ketepatan klasifikasi anggota rumah tangga (ART) berdasarkan terinfeksi atau tidaknya terhadap penyakit tuberkulosis paru, hal ini dimaksudkan agar jumlah penderita tuberkulosis paru di Indonesia dapat diminimalkan. Adapun penelitian sebelumnya tentang variabel-variabel yang diduga mempengaruhi tuberkulosis paru meliputi faktor umur, jenis kelamin, tingkat pendidikan, pekerjaan, kebiasaan merokok, kepadatan hunian kamar, ventilasi, kondisi rumah, kelembapan udara, status gizi, perilaku, kondisi sosial ekonomi, belum optimalnya fasilitas pelayanan kesehatan masyarakat, meningkatnya jumlah penduduk yang tidak mempunyai tempat tinggal, epidemi dari infeksi HIV, dan pola hidup (Prabu, 2008 ; Siswanto, 2008 ; Balai Besar Kesehatan Paru Masyarakat Makassar, 2009). Data Riskesdas 2007 menyatakan Provinsi Papua Barat sebagai provinsi penyumbang terbanyak angka kejadian tuberkulosis paru (TB Paru) di Indonesia. Oleh karena itu, tujuan makalah ini adalah menerapkan dan membandingkan kedua metode di atas untuk menjawab permasalahan angka kejadian tuberkulosis paru di Provinsi Papua Barat. 2. Landasan Teori 2.1 Tuberkulosis Pengertian dari tuberkulosis adalah suatu penyakit infeksi yang disebabkan oleh basil tahan asam disingkat BTA dengan nama lengkap bakteri Mycobacterium Tubercolosis. Bakteri ini merupakan bakteri basil yang sangat kuat sehingga memerlukan waktu lama untuk mengobatinya. Bakteri ini lebih sering menginfeksi organ paru-paru dibandingkan bagian lain tubuh manusia, sehingga selama ini kasus tuberkulosis yang sering terjadi adalah kasus tuberkulosis paru. Penyakit tuberkulosis paru biasanya menular melalui udara yang tercemar dengan bakteri Mycobacterium Tuberculosis yang dilepaskan pada saat penderita batuk, dan pada anak-anak sumber infeksi umumnya berasal dari penderita tuberkulosis paru dewasa. Selain manusia, satwa juga dapat terinfeksi dan menularkan penyakit tuberkulosis paru kepada manusia melalui kotorannya. Kotoran satwa yang terinfeksi itu terhirup oleh manusia maka membuka peluang manusia akan terinfeksi juga penyakit tuberkulosis paru.
2.2 Regresi logistik 2
Regresi logistik adalah metode statistika yang mempelajari tentang pola hubungan secara matematis antara satu variabel tak bebas yang bersifat nominal atau ordinal dengan satu atau lebih variabel bebas. Analisis regresi logistik biner adalah suatu regresi logistik antara variabel tak bebas (y) dan variabel bebas (x) dimana variabel y menghasilkan 2 kategori yaitu 0 dan 1. Pada regresi logistik dapat disusun model yang terdiri dari banyak variabel bebas yang dikenal sebagai model multivariabel. Model regresi logistik multivariabel dengan p variabel bebas adalah:
(x)
exp(0 1x1 ... p xp ) . 1exp(0 1x1 ... p xp )
(1)
2.2.1 Pendugaan Parameter Model Pendugaan βj dilakukan dengan menggunakan metode penduga kemungkinan Maximum Likelihood Estimation (MLE) dimana dengan metode ini parameter diestimasi dengan memaksimumkan fungsi turunan pertama. Jika amatan yang satu dengan yang lain diasumsikan bebas maka fungsi likelihood merupakan fungsi kepadatan gabungan berikut (Hosmer and Lemeshow, 2000), yaitu : 1yi
(β) = xi y 1 xi . n
(2)
i
i1
Perhitungan dapat dimudahkan dengan melakukan pendekatan logaritma pada fungsi lnlikelihood sebagai berikut (Hosmer and Lemeshow, 2000) :
L(β) = ln (β).
(3)
Nilai β dari L(β) yang maksimum didapatkan dengan melakukan penurunan terhadap β1 dan hasilnya disamakan dengan nol, sehingga didapatkan :
p j xij exp n n L(β) j0 0 . yi xij xij p j i1 i1 1 exp j xij j0
(4)
2.2.2 Pengujian Parameter Model Pengujian statistik dilakukan untuk menentukan apakah variabel-variabel bebas yang terdapat dalam model tersebut memiliki hubungan yang nyata dengan variabel tak bebasnya. Pengujian ini dilakukan sebagai berikut : a. Uji Parsial Untuk memeriksa kemaknaan koefisien β secara parsial dengan membandingkan dugaan β dengan penduga standar errornya. Hipotesis : H0 : b 0 H1 : b 0 dengan Statistik uji-Wald :
W
ˆb 2 . SE(ˆb )2
(6)
3
Statistik uji W mengikuti distribusi 2 , sehingga H0 ditolak jika nilai W 2(v;) atau pvalue < , dengan derajat bebas v (banyaknya parameter). b. Uji Serentak Dilakukan untuk memeriksa kemaknaan koefisien β secara serentak dan hipotesa pengujiannya adalah : Ho : β0 = β1 = ...........= βk = 0 H1 : paling sedikit ada satu βi ≠ 0
, i = 1, 2, ..., k
Statistik uji yang digunakan adalah statistik uji G atau Likelihood Ratio Test, yaitu:
n1 n1 n0 n0 , G 2ln n n n 1ya ya (ˆa ) 1ˆa a1 dengan :
(5)
n1 = banyaknya observasi yang berkategori 1 atau n1 ya n
a1
n0 = banyaknya observasi yang berkategori 0 atau n1
1 y n
a1
a
n = n0 + n1 Nilai G yang diperoleh dibandingkan dengan distribusi Chi-Square dengan derajat bebas v dan yang sesuai untuk menolak H0 atau H1. Tolak H0 jika G > (2,v) atau jika nilai pvalue < α . 2.3 Multivariate Adaptive Regression Splines (MARS) Model MARS difokuskan untuk mengatasi permasalahan dimensi yang tinggi dan diskontiouitas pada data. MARS merupakan pengembangan dari pendekatan Recursive Partition Regression (RPR) yang masih memiliki kelemahan dimana model yang dihasilkan tidak kontinu pada knot. Penentuan knot pada MARS menggunakan algoritma forward stepwise dan backward stepwise. Pemilihan model dengan menggunakan forward stepwise dilakukan untuk mendapatkan jumlah basis fungsi dengan kriteria pemilihan basis fungsi adalah meminimumkan Average Sum of Square Residual (ASR). Untuk memenuhi konsep parsimoni (model yang sederhana) dilakukan backward stepwise yaitu membuang basis fungsi yang memiliki kontribusi kecil terhadap respon dari forward stepwise dengan meminimumkan nilai Generalized Cross Validation (GCV) (Friedman dan Silverman, 1989). Menurut Friedman (1991), model umum persamaan MARS adalah sebagai berikut : , dengan : a0 = am = M = Km = skm = xv(k,m) =
basis fungsi induk koefisien dari basis fungsi ke-m maksimum basis fungsi (nonconstant basis fungsi) derajat interaksi nilainya 1 atau -1 jika data berada di sebelah kanan atau kiri titik knot. variabel independen 4
(7)
ukm = nilai knots dari variabel independen xv(k,m) Pada model MARS, klasifikasi didasarkan pada pendekatan analisis regresi. Jika variabel respon terdiri dari dua nilai, maka dikatakan sebagai regresi dengan binary response (Cox dan Snell, 1989) sehingga dapat digunakan model probabilitas dengan persamaan sebagai berikut : dan dengan
,
(8)
sehingga,
prob(Y 1) (x) dan prob(Y 0) 1(x) Karena Y merupakan variabel respon biner (0 dan 1) dengan m banyaknya variabel prediktor, x (x1 ,..., xm ), maka model MARS untuk klasifikasi dapat dinyatakan sebagai berikut (Otok, 2008): .
(9)
2.4 Prosedur Klasifikasi Evaluasi prosedur klasifikasi adalah suatu evaluasi yang melihat peluang kesalahan klasifikasi yang dilakukan oleh suatu fungsi klasifikasi (Johnson and Wichern, 1992). Ukuran yang dipakai adalah Apparent Error Rate (APER). Nilai APER ini menyatakan nilai proporsi sampel yang salah diklasifikasikan oleh fungsi klasifikasi. Karena penelitian ini merupakan binary response yang dikelompokkan menjadi ART terinfeksi (1) dan ART tidak terinfeksi (2), maka penentuan kesalahan klasifikasi dapat diketahui melalui tabel klasifikasi seperti pada Tabel 1 berikut ini: Tabel 1 Tabel Kesalahan Klasifikasi
Hasil Observasi (Actual Class) ART terinfeksi (1) ART tidak terinfeksi (2)
Taksiran (Predicted Class) ART terinfeksi (1) ART tidak terinfeksi (2) n12 n11 n21
n22
dengan : n11 = Jumlah data anggota rumah tangga (ART) yang pernah dinyatakan positif terinfeksi tuberkulosis paru (1) dari hasil observasi yang tepat diklasifikasikan pada taksiran anggota rumah tangga (ART) yang pernah dinyatakan positif terinfeksi tuberkulosis paru (1) n12 = Jumlah data anggota rumah tangga (ART) yang pernah dinyatakan positif terinfeksi tuberkulosis paru (1) dari hasil observasi yang salah diklasifikasikan pada taksiran anggota rumah tangga (ART) yang tidak pernah dinyatakan positif terinfeksi tuberkulosis paru (2) n21 = Jumlah data anggota rumah tangga (ART) yang tidak pernah dinyatakan positif terinfeksi tuberkulosis paru (2) dari hasil observasi yang salah diklasifikasikan pada taksiran anggota rumah tangga (ART) yang pernah dinyatakan positif terinfeksi tuberkulosis paru (1) n22 = Jumlah data anggota rumah tangga (ART) yang tidak pernah dinyatakan positif terinfeksi tuberkulosis paru (2) dari hasil observasi yang tepat diklasifikasikan 5
pada taksiran anggota rumah tangga (ART) yang tidak pernah dinyatakan positif terinfeksi tuberkulosis paru (2)
sedangkan untuk perhitungan besarnya nilai APER adalah sebagai berikut:
APER(%)
n12 n21 . n11 n12 n21 n22
(10)
Menurut Agresti (1990), metode klasifikasi yang baik akan menghasilkan sedikit kesalahan klasifikasi atau akan menghasilkan peluang kesalahan klasifikasi (alokasi) yang kecil. 3. Metode penelitian Data yang digunakan dalam penelitian ini adalah data sekunder yang diperoleh dari data Riset Kesehatan Dasar (Riskesdas) dan Survei Sosial Ekonomi Nasional (Susenas) tahun 2007 se-Indonesia yang bersumber dari Puslitbang Sistem dan Kebijakan Kesehatan, Badan Litbangkes Departemen Kesehatan Republik Indonesia. Obyek penelitian ini adalah Anggota Rumah Tangga (ART) berusia minimal 10 tahun, baik yang dinyatakan terinfeksi TB Paru maupun tidak, dalam rentang satu bulan terakhir sebelum pelaksanaan survei (September-November 2007) dan sudah dikonfirmasi melalui pemeriksaan darah oleh tenaga ahli kesehatan (dokter/perawat/bidan). Studi kasus dari penelitian ini adalah provinsi Papua Barat, sebagai penyumbang terbanyak angka kejadian tubrkulosis paru (TB Paru) di Indonesia (Data Riskesdas tahun 2007). Perbandingan data training dan data testing yaitu sebesar 60 : 40 dari data yang ada. Variabel yang digunakan dalam penelitian ini terdiri atas variabel dependen dan variabel independen, sebagai berikut : Variabel Y X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
Deskripsi ART baik yang dinyatakan terinfeksi TB Paru maupun tidak terinfeksi TB Paru Umur Jenis kelamin Pendidikan Pekerjaan Status sosial ekonomi Kebiasaan merokok (dalam 12 bulan terakhir) Konsumsi alkohol (dalam 12 bulan terakhir) Pemeliharaan ternak Penyuluhan kesehatan Jarak dengan fasilitas layanan kesehatan
Jenis skala Nominal Nominal Nominal Ordinal Nominal Nominal Ordinal Nominal Nominal Nominal Kontinyu
4. Hasil dan Pembahasan Pengujian keberartian parameter model pada setiap variabel prediktor dengan menggunakan statistik uji-Wald dan taraf signifikansi maka dapat diketahui bahwa faktor-faktor yang berpengaruh secara individu terhadap angka kejadian tuberkulosis paru (TB Paru) di provinsi Papua Barat meliputi umur dan konsumsi alkohol. 6
Pengujian serentak dengan statistik uji G sebesar 11,975 dan nilai distribusi Chi-Square dengan derajat bebas v dan sebesar 7,897 maka disimpulkan bahwa tolak H0 berarti minimal ada satu variabel prediktor yang berpengaruh secara signifikan terhadap variabel respon. Model regresi logistik yang diperoleh dengan menggunakan paket program MINITAB 14, yaitu :
(x) exp(4,2050,063X1 3,213X7 (1))
1 exp(4,2050,063X1 3,213X7 (1))
Berdasarkan model di atas diketahui bahwa variabel yang berpengaruh terhadap angka kejadian tuberkulosis paru di Provinsi Papua Barat meliputi umur dan kebiasaan mengkonsumsi alkohol. Model MARS yang diperoleh dengan menggunakan paket program MARS 2.0, yaitu : dengan : BF1 = max(0, X1 – 72,.000); BF2 = max(0, 72,000 – X1 ); BF4 = (X3 > .); BF7 = max(0, 2,000 – X3) * BF4; BF8 = max(0, X7 – 2,000); Berdasarkan model MARS di atas dapat diketahui bahwa variabel yang berpengaruh terhadap angka kejadian tuberkulosis paru di Provinsi Papua Barat meliputi umur, pendidikan, dan konsumsi alkohol. Urutan tingkat kepentingan dari ketiga variabel prediktor di atas, mulai dari yang tertinggi hingga terendah meliputi variabel umur sebesar 100%, konsumsi alkohol sebesar 44,081%, dan pendidikan sebesar 30,848. Perbandingan ketepatan klasifikasi antara metode regresi logisik dengan metode MARS, yaitu sebagai berikut : Tabel 2 Ketepatan klasifikasi
Metode Data Training Testing
Regresi Logistik
MARS
96,67% 93,72%
98,94% 97,75%
Berdasarkan Tabel 2 diketahui bahwa ketepatan klasifikasi pada metode MARS lebih tinggi daripada metode regresi logistik, baik pada data training maupun data testing. Nilai APER yang diperoleh dari metode regresi logistik pada data testing sebesar 0,0628 dan nilai APER pada data testing metode MARS sebesar 0,0225. Nilai APER pada metode MARS lebih kecil daripada nilai APER pada metode regresi logistik. 5. Kesimpulan Berdasarkan hasil analisis data di atas maka dapat diperoleh kesimpulan bahwa metode MARS lebih baik daripada metode regresi logistik pada kasus klasifikasi angka kejadian penyakit infeksi tuberkulosis paru di Provinsi Papua Barat. Kedua metode menyatakan hasil yang berbeda dalam hal penentuan variabel yang berpengaruh terhadap angka kejadian tuberkulosis paru di provinsi Papua Barat. Metode regresi logistik menyatakan bahwa variabel yang berpengaruh meliputi variabel umur dan kebiasaan 7
mengkonsumsi alkohol. Sementara metode MARS menyatakan bahwa variabel yang berpengaruh meliputi variabel umur, konsumsi alkohol, dan pendidikan. Interpretasi hasil analisis regresi logistik lebih mudah dan rasional, sedangkan hasil analisis MARS kadang memberikan interpretasi yang sulit dan tidak rasional. 6. Daftar Pustaka Agresti, A. (1990). Categorical Data Analysis. New York: John Willey and Sons. Anonim_a. (2001). MARSTM User Guide. Salford Systems. Anonim_b. (2003). Pengertian, Gejala dan Klasifikasi Tuberkulosis Paru. [http://www.wikipedia.org] (On-line: September, 3th 2009). Balai Besar Kesehatan Paru Masyarakat Makassar. (2009). Faktor-Faktor yang Mempengaruhi Penyakit Tuberkulosis. Makasar: Pemerintah Provinsi Makassar. Cox, D.R., and Snell, E.J. (1989), Analysis of Binary Data. Second Edition. London: Chapman & Hall. Departemen Kesehatan RI. (2003). Survei Kesehatan Rumah Tangga Tahun 1995 . Pusat Data dan Informasi, Health Statistic. Jakarta: Depkes RI. Dillon, W.R. (1978). On The Performance of Some Multinomial Classification Rules. Journal Of American Statistical Association, 73, pp. 305-313. Eubank, R.L. (1988). Spline Smoothing and Nonparametric Regression. New York: Marcel Deker. Friedman, J.H. (1991). Multivariate Adaptive Regression Splines. The Annals of Statistics, Vol. 19, No. 1. Friedman, J.H., and Silverman, B.W. (1989). Flexible Parsimony Smoothing and Additive Modelling. Technometrics, 31. Hosmer, D.L., and Lemenshow, S. (2000). Applied Logistic Regression. John Wiley and Sons, Inc. New York. Johnson, R.A., and Wichern, D.W. (1992). Applied Multivariate Statistical Analysis. Prentice Hall, Englewood Cliffs, New Jersey. Otok, B.W. (2008). Multivariate Adaptive Regression Spline. Pelatihan MARS. Surabaya. Prabu, Putra. (2008). Faktor Resiko TBC. [http://putraprabu.com/2008/12/16/tuberkulosistbc/] (On-line: September, 3th 2009). Sharma, S. (1996). Applied Multivariate Techniques. Canada: John Wiley and Sons, Inc. Siswanto, A. B. (2008). Penyakit TBC. [http://lifestyle.okezone.com] (On-line: September, 5th 2009).
8