IMPLEMENTASI REGRESI LOGISTIK BINER PADA PENENTUAN FAKTOR-FAKTOR YANG MEMPENGARUHI PENYAKIT JANTUNG Wardatuz Zakiyah, Hendro Permadi, dan Swasono Rahardjo Universitas Negeri Malang E-mail : zakiyah_musta’
[email protected] Abstrak : Penelitian ini bertujuan untuk menentukan faktor-faktor yang mempengaruhi penyakit jantung dengan menggunakan analisis regresi logistik biner. Prosedur dalam penelitian ini melalui langkah-langkah mendeteksi distribusi variabel terikat (Y), mengidentifikasi adanya kasus multikolinieritas, membentuk model regresi logistik biner secara parsial, memilih variabel bebas yang signifikan, membentuk model regresi logistik biner berganda, menguji koefisien regresi secara serentak, dan menguji kecocokkan model. Hasil analisis regresi logistik biner berganda dari 6 variabel bebas, yaitu umur (X1), tekanan darah sistolik (X2), tekanan darah diastolik (X3), kandungan kolesterol (X4), tinggi badan (X5), dan berat badan (X6) yang diperkirakan mempengaruhi terjadinya serangan jantung yaitu variabel umur (X1), tekanan darah diastolik (X3), dan kandungan kolesterol (X4) dengan nilai koefisien determinasi berganda R2 sebesar 32% dan MSE sebesar 0,16 Kata kunci : regresi logistik biner, penyakit jantung. Penyakit jantung merupakan penyakit yang sangat menakutkan dan mematikan. Di seluruh dunia, jumlah penderita penyakit ini terus bertambah, bahkan penyakit jantung sampai saat ini masih merupakan penyebab kematian utama di berbagai benua mulai dari Amerika Utara, Eropa dan Asia tidak terkecuali di Indonesia. Penyakit jantung sering dianggap sebagai penyakit monopoli orang tua. Dulu memang penyakit tersebut diderita oleh orang tua terutama yang berusia 60 tahun ke atas, karena usia juga merupakan salah satu faktor resiko terkena penyakit jantung. Namun sekarang ini ada kecenderungan juga diderita oleh pasien yang berusia di bawah 40 tahun. Hal ini bisa terjadi karena adanya perubahan gaya hidup, terutama pada orang muda perkotaan modern. Ketika era globalisasi menyebabkan informasi semakin mudah diperoleh, negara berkembang dapat segera meniru kebiasaan negara barat yang dianggap cermin pola hidup modern. Sejumlah perilaku seperti mengkonsumsi makanan siap saji (fast food) yang mengandung kadar lemak jenuh tinggi, kebiasaan merokok, minuman beralkohol, kerja berlebihan, kurang berolah raga, dan stress, telah menjadi gaya hidup manusia terutama di perkotaan. Padahal kesemua perilaku tersebut dapat merupakan faktor-faktor penyebab penyakit jantung. Meskipun sudah digunakan bermacam strategi farmakologis atau perubahan gaya hidup, namun dari tahun ke tahun angka penderitanya selalu cenderung meningkat. Diseluruh dunia, kira-kira 13.670.000 orang menderita penyakit jantung, angina pectoris (nyeri dada) atau kedua-duanya. Dari keseluruhan jumlah, 6.930.000 78
orang adalah lelaki dan 6.750.000 orang adalah perempuan. Sekurang-kurangnya 250.000 orang meninggal dunia setiap tahun dalam masa satu jam setelah serangan jantung dan sebelum sampai ke Rumah Sakit. Di Indonesia, prevalensi penyakit jantung menjadi semakin tinggi yakni semakin bertambah penderitanya. Survei Kesehatan Rumah Tangga (SKRT) yang dilakukan secara berkala oleh Departemen Kesehatan menunjukkan bahwa penyakit jantung memberikan kontribusi sebesar 19,8 persen dari seluruh penyebab kematian pada tahun 1993. Angka tersebut meningkat menjadi 24,4 persen pada tahun 1998. Hasil SKRT tahun 2001, penyakit jantung koroner telah menempati urutan pertama dalam deretan penyebab utama kematian di Indonesia. Melihat permasalahan tersebut, perlu diadakan penelitian untuk mengetahui faktor-faktor yang bisa menyebabkan terjadinya serangan jantung dengan menggunakan analisis regresi logistik. Terjadinya serangan jantung sebagai variabel respon yang terdiri dari dua kategori yaitu “terjadi serangan” dan “tidak terjadi serangan”, sedangkan faktor-faktor yang mempengaruhinya sebagai variabel bebas yang berupa kategori. Untuk penentuan nilai kategori dapat digunakan nilai berapapun.
Berdasarkan latar belakang di atas penulis memberi judul skripsi “Implementasi Regresi Logistik Biner Pada Penentuan Faktor-faktor yang Mempengaruhi Penyakit Jantung (Studi Kasus Penyakit Jantung di RSI Sakinah Mojokerto)”. Tujuan penelitian ini adalah untuk menentukan faktor-faktor yang mempengaruhi penyakit jantung. METODE Metode pada penelitian ini menggunakan penelitian analitik yaitu tipe penelitian untuk mengetahui hubungan sebab akibat antara dua variabel secara observasional, dimana bentuk hubungan dapat berupa perbedaan atau pengaruh antar variabel. Sedangkan observasional yaitu suatu penelitian dimana peneliti hanya melakukan observasi tanpa memberi intervensi pada variabel yang akan diteliti. Adapun hubungan antar variabel penelitian adalah sebagai berikut : 1. Variabel Terikat Variabel terikat atau variabel respon terdiri dari dua kategori, dengan kode Y = 0 : untuk pasien tidak terjadi serangan jantung Y = 1 : untuk pasien terjadi serangan jantung 2. Variabel Bebas Variabel bebas atau prediktor yang diamati adalah : x1 = Umur (tahun) x 2 = Tekanan darah sistolik (mmHg) x3 = Tekanan darah diastolik (mmHg) x 4 = Kandungan kolesterol (mg/dl) x5 = Tinggi badan (cm) x6 = Berat badan (cm) Obyek penelitian yang digunakan memiliki kualitas serta ciri-ciri yang telah diterapkan. Populasi dan sampel dalam penelitian ini adalah 113 orang pasien di Rumah Sakit Islam Sakinah Kota Mojokerto pada tahun 2011- Agustus 2012 yang menjalani rawat inap baik untuk jenis kelamin laki-laki maupun untuk 78
jenis kelamin perempuan. Dalam penelitian ini instrument yang digunakan berupa: 1. Kartu status pasien yang digunakan untuk memperoleh data umur (tahun), tekanan darah, berat badan, dan tinggi badan. 2. Data uji laboratorium untuk mengetahui kaitannya dengan penyakit jantung. 3. Software Easyfit untuk mendeteksi apakah variabel terikat (Y) mengikuti pola distribusi Binomial 4. Software Minitab 12 untuk mengetahui model regresi logistik biner. Teknik yang digunakan untuk mengambil data pada penelitian ini yaitu metode dokumentasi yaitu melakukan pencatatan data terhadap obyek yang diteliti. Data yang dibutuhkan merupakan data kuantitatif yang ada dalam data rekam medik pasien. Dalam penelitian ini data yang diperoleh bersumber dari data rekam medik pasien penderita penyakit jantung di Rumah Sakit Islam Sakinah Mojokerto. Data tersebut meliputi : Umur, tekanan darah, kadar kolesterol, berat badan, dan tinggi badan pasien. Adapun pengambilan sampel dilakukan selama rentang bulan November 2012. Teknik analisis data yang digunakan sebagai berikut : 1. Mendeteksi distribusi variabel terikat (Y) dengan program Easyfit. 2. Mengidentifikasi adanya kasus multikolinieritas dengan matriks korelasi. 3. Membentuk model regresi logistik biner secara parsial. 4. Memilih variabel bebas yang signifikan berpengaruh terhadap variabel respon dengan uji Wald. 5. Membentuk model regresi logistik biner berganda dengan mengikutsertakan semua variabel bebas yang signifikan pada langkah 3 dan variabel bebas kasus multikolinieritas pada langkah 2. 6. Menguji koefisien regresi secara serentak dengan uji nisbah kemungkinan atau Likelihood Ratio Test dan uji regresi secara parsial dengan uji Wald. 7. Menguji kecocokan model (Goodness of Fit) dengan statistik deviance. HASIL DAN PEMBAHASAN 1. Pendeteksian Distribusi Variabel Terikat Mendeteksi distribusi pada variabel terikat (Y) dilakukan untuk mengetahui apakah variabel terikat (Y) mengikuti pola distribusi Binomial. Pendeteksian distribusi ini dapat dilakukan dengan menggunakan software Easyfit. Kolmogorov Anderson Smirnov Darling No. Distribusi Statistik Rank Statistik Rank 1 Bernoulli 0.63717 3 106.06 5 2 Binomial 0.63717 2 106.06 4 3 D. Uniform 0,5 1 68.468 2 4 Geometric 0.73377 5 75.365 3 5 Poisson 0.6957 4 67.982 1 6 Hypergeometric No fit 7 Logarithmic No fit (data min < 1) 8 Neg. Binomial No fit
78
Hasil uji distribusi variabel terikat (Y) pada tabel di atas menunjukkan bahwa variabel Y mengikuti pola distribusi Binomial. Hal ini ditunjukkan oleh pola ditribusi Binomial dengan uji Kolmogorov Smirnov berada pada urutan kedua, sedangkan untuk uji Anderson Darling berada pada urutan keempat. Oleh karena itu, data dapat dianalisis dengan menggunakan regresi logistik biner. 2. Mengidentifikasi adanya kasus multikolinieritas dengan matriks korelasi. Y X1 X2 X3 X4 X1 0.467* X2 0.008 0.191 X3 0.429* 0.395 0.183 X4 0.289* 0.285 -0.073 0.206 X5 -0.176 -0.345 0.050 -0.108 -0.036 X6 0.017 -0.017 0.109 0.280 0.078 Keterangan * : variabel signifikan pada α = 0,05
X6
0.414
Dari matriks korelasi yang ada pada tabel di atas dapat dilihat bahwa variabel bebas yang mempunyai korelasi yang kuat dengan variabel Y (signifikan) adalah variabel X1, X3, dan X4 rX 1Y = 0.467, rX 3Y = 0.429, rX 4Y = 0.289 dengan nilai P-Value dari ketiga variabel tersebut kurang dari α = 0,05. Dan terjadinya kasus multikolinieritas dapat dilihat dengan membandingkan koefisien korelasi antara variabel bebasnya dengan koefisien korelasi antara X1, X3, dan X4 dengan Y.
(
)
3. Membentuk model regresi logistik biner secara parsial. Variabel Bebas Umur (X1) Tekanan darah sistolik (X2) Tekanan darah diastolik (X3) Kolesterol (X4) Tinggi badan (X5) Berat badan (X6)
Uji Z 4.53 0.09 4.05 2.91 -1.84 0.18
Uji G 26.729 0.008 22.695 9.678 3.608 0.031
P 0.000 0.929 0.000 0.004 0.065 0.861
P-Value 0.000 0.929 0.000 0.002 0.057 0.861
Hasil analisis uji Z dan P-value pada tabel di atas menunjukkan bahwa variabel umur (Z = 4,53) signifikan dalam model karena P[W<4,53] = 0,000 kurang dari α = 0,05. Sehingga variabel umur layak masuk dalam model regresi logistik biner. Pada variabel tekanan darah sistolik (Z = 0,09) tidak signifikan dalam model karena P[W<0,09] = 0,929 lebih dari α = 0,05. Sehingga variabel tekanan darah sistolik tidak layak masuk dalam model regresi logistik biner. Variabel tekanan darah diastolik (Z = 4,05) signifikan dalam model karena P[W<4,05] = 0,000 kurang dari α = 0,05. Sehingga variabel tekanan darah diastolik layak masuk dalam model regresi logistik biner. Variabel kolesterol (Z = 2,91) signifikan dalam model karena P[W<2,91] = 0,002 kurang dari α = 0,05. Sehingga variabel kolesterol layak masuk dalam model regresi logistik biner. Variabel tinggi badan (Z = -1,84) tidak signifikan dalam model karena P[W<-
78
1,84] = 0,057 lebih dari α = 0,05. Sehingga variabel tinggi badan tidak layak masuk dalam model regresi logistik biner. Variabel badan badan (Z = 0,18) tidak signifikan dalam model karena P[W<0,18] = 0,861 lebih dari α = 0,05. Sehingga variabel berat badan tidak layak masuk dalam model regresi logistik biner. 4. Memilih variabel bebas yang signifikan berpengaruh terhadap variabel respon dengan uji Wald. Analisis regresi logistik biner dilakukan untuk menguji keberartian dari koefisien secara serentak. Untuk menguji koefisien regresi logistik biner secara serentak dilakukan dengan uji nisbah kemungkinan/likelihood ratio test. Sedangkan untuk menguji koefisien regresi logistik biner secara parsial digunakan uji Wald. Pengujian koefisien regresi logistik biner ini dilakukan untuk mengidentifikasi variabel bebas mana yang berpengaruh nyata pada model regresi logistik biner berganda. Variabel
Koefisien
Konstanta X1 X3 X4
-12.5389 0.0785014 0.0701833 0.0075578
SE koefisien
Z (Wald)
2.64030 -4.75 0.0243144 3.23 0.0258316 2.72 0.0044664 1.69 G = 39.479 P-Value = 0.000
P 0.000 0.001 0.007 0.091
Odds Ratio 1.08 1.07 1.01
Hasil uji nisbah kemungkinan atau Loglikelihood Ratio Test pada tabel di atas menunjukkan bahwa G = 39,479 dengan P[ c 2 > 39,479] = 0,000 kurang dari a = 0,05. Hal ini dapat disimpulkan bahwa ada satu atau lebih variabel bebas yang berpengaruh nyata terhadap variabel respon. Sedangkan hasil uji Wald untuk kedua variabel bebas yang dimasukkan pada model regresi logistik biner mempunyai nilai peluang yang kurang dari a = 0,05 atau signifikan pada taraf 5%. Sehingga dapat disimpulkan bahwa ketiga variabel bebas yaitu umur, tekanan darah diastolik, dan kandungan kolesterol mempunyai pengaruh yang nyata terhadap variabel respon. 5. Membentuk model regresi logistik biner berganda. Dari analisis regresi logistik biner secara parsial, dihasilkan beberapa variabel bebas yang mempunyai pengaruh terhadap variabel terjadinya penyakit jantung yaitu umur, tekanan darah diastolik, dan kandungan kolesterol. Sehingga ketiga variabel bebas tersebut layak dimasukkan dalam model akhir regresi logistik biner berganda. Sehingga diperoleh model akhir regresi logistik biner berganda sebagai berikut : Ù
Y=
exp (- 12,5389 + 0,0785014 X 1 + 0,0701833 X 3 + 0,0074478 X 4 ) 1 + exp (- 12,5389 + 0,0785014 X 1 + 0,0701833 X 3 + 0,0074478 X 4 )
78
Dari model regresi logistik biner tersebut yaitu umur yang memberikan nilai sebesar 0,0785014 terhadap penyakit jantung, tekanan darah diastolik yang memberikan nilai sebesar 0,0701883 terhadap penyakit jantung, dan kandungan kolesterol yang memberikan nilai sebesar 0,0074478 terhadap penyakit jantung. Sedangkan koefisien determinasi berganda R2 yang telah diperoleh dari model regresi logistik biner tersebut sebesar 32 % . 6. Menguji kecocokan model (Goodness of Fit) dengan statistik deviance. Setelah diperoleh model akhir regresi logistik biner, yaitu : Ù
Y=
exp (- 12,5389 + 0,0785014 X 1 + 0,0701833 X 3 + 0,0074478 X 4 ) 1 + exp (- 12,5389 + 0,0785014 X 1 + 0,0701833 X 3 + 0,0074478 X 4 )
Maka selanjutnya dilakukan uji kesesuaian model (Goodness of Fit). Dari uji yang dilakukan, diperoleh nilai statistic deviance sebesar 108,558 dengan derajat bebas 84, sehingga diperoleh P[ c 842 > 108,558] = 0,335. Karena peluang yang dihasilkan lebih besar dari peluang yang diinginkan atau α = 0,05, maka menerima H0 dengan kesimpulan bahwa model yang diperoleh telah sesuai. Dan menurut Fahrmnier (1994) dalam Nadliroh (2008), pada pengujian Goodness of Fit apabila peluang yang dihasilkan lebih besar dari yang diinginkan (α = 0,05), maka semua variabel bebas dalam model memberikan pengaruh berbeda pada variabel responnya. Oleh karena itu, model akhir regresi logistik biner berganda untuk variabel penyakit jantung di RSI Sakinah Mojokerto telah sesuai dan semua variabel bebas yang ada dalam model memberikan pengaruh. KESIMPULAN Dengan menggunakan regresi logistik biner dari 6 variabel bebas (umur, tekanan darah sistolik, tekanan darah diastolik, kolesterol, tinggi badan, dan berat badan) yang diperkirakan mempengaruhi adanya penyakit jantung adalah variabel umur (X1) dan tekanan darah diastolik (X3) yang paling berpengaruh terhadap adanya penyakit jantung. Model hubungan adanya penyakit jantung terhadap faktor-faktor yang mempengaruhinya dengan menggunakan analisis regresi logistik biner yaitu : Ù
Y=
exp (- 12,5389 + 0,0785014 X 1 + 0,0701833 X 3 + 0,0074478 X 4 ) 1 + exp (- 12,5389 + 0,0785014 X 1 + 0,0701833 X 3 + 0,0074478 X 4 )
SARAN Pada penelitian ini variabel bebas (X) hanya terdapat 6 variabel yaitu umur, tekanan darah sistolik, tekanan darah diastolik, kandungan kolesterol, tinggi badan, dan berat badan. Perlu dilakukan penelitian lebih lanjut dengan menambah jumlah variabel bebas yang lain seperti jenis kelamin, merokok, penyakit diabetes.
78
DAFTAR RUJUKAN Agresti, Alan. 1984. Analysis of Ordinal categorical data. Canada: John Wiley & Sons. Anonym. 2011. Daftar Kartu Periksa Pasien. Dokumen Rumah Sakit Islam Sakinah Mojokerto. Draper, N.R. dan Smith, H. 1992. Analisis Regresi Terapan. Edisi Kedua. Jakarta: Gramedia. Hosmer, David W. and Lameshow, Stanley. 1989. Applied Logistic Regression. Canada: A Wiley Interscience Publication. Montgomery, Douglas C. 1990. Pengantar Pengendalian Kualitas Statistik. Yogyakarta: Gadjah Mada University Press. Sembiring, R.K. 1995. Analisis Regresi. Bandung: ITB. Serangan Jantung – Wikipedia, the free encyclopedia, (http://id. Wikipedia.org/wiki/Serangan_Jantung, diakses tanggal 2 mei 2013). Supangat, Andi. 2007. Statistika Dalam Kajian Deskriptif, Inferensi, dan Nonparametrik. Bandung: Universitas Widyatama.
78
Artikel skripsi oleh Wardatuz Zakiyah ini telah diperiksa dan disetujui.
Malang, 16 Agustus 2013 Pembimbing I
Ir. Hendro Permadi, M.Si NIP 19661224 199903 1 001
Malang, 16 Agustus 2013 Pembimbing II
Dr. Swasono Rahardjo, S.Pd, M.Si NIP 19661010 199203 1 004
Malang, 16 Agustus 2013 Penulis
Wardatuz Zakiyah NIM 904312475863
78