Jurnal EKSPONENSIAL Volume 3, Nomor 1, Mei 2012
ISSN 2085-7829
Interpretasi Parameter dalam Model Regresi Logistik untuk Variabel Bebas Dikotomus Parameter Interpretation in Logistic Regression Models for Dicotomus Independent Variable
Darnah A. Nohe Program Studi Statistika FMIPA Universitas Mulawarman Abstract Logistic regression is a specialized form of regression that is formulated to predict and explain a binary categorical variable rather than a metric dependent measure. Interpretation of coefficients in a logistic regression model relies on the ability of researchers to put meaning to the difference between the two logit, and these differences will directly connect to the definition and meaning of a unit change in independent variable. This paper present parameters interpretation in logistic regression models for dicotomus independent variable using odds ratio. Data will be presented in a 2x2 contingency table for ease of understanding. Logistic regression were applied to data of Malaria case. Keywords: Binary, Dicotomus Independent Variable, Logistic Regression.
Pendahuluan Setiap model dugaan yang terbentuk memerlukan interpretasi yang dapat menggambarkan inferensi praktis dari koefisien taksiran didalam model yang direlevansikan dengan tujuan yang ingin dicapai dalam suatu penelitian. Koefisien taksiran untuk variabel bebas menggambarkan slope atau tingkat perubahan dari fungsi variabel tak bebas per satuan unit perubahan di dalam variabel bebas. Jadi interpretasi ini akan menyangkut dua hal, yaitu: penentuan hubungan fungsional antara variabel tak bebas dan variabel bebas, serta pendefinisian satuan unit perubahan untuk variabel bebas. Langkah pertama untuk menentukan bagaimana bentuk fungsi dari variabel tak bebas yang menghasilkan fungsi linier dari variabelvariabel bebas adalah dengan menggunakan fungsi penghubung (link function). Dalam model regresi logistik, fungsi penghubungnya adalah transformasi logit yang berbentuk g(x) = ln{(x)/[1 - (x)]} = 0 + 1x. (McCullagh dan Nelder, 1983). Sedangkan model regresi linier adalah fungsi identitas karena variabel tak bebasnya linier dalam parameter-parameternya. Untuk model regresi linier, diketahui bahwa koefisien slope, 1, adalah sama dengan perbedaan antara nilai dari variabel tak bebas pada x + 1 dengan nilai dari variabel bebas pada x, untuk setiap nilai x. Untuk menggambarkan hal itu, kita misalkan y(x) = 0 + 1x dimana 1 = y(x + 1) - y(x). Dalam hal ini, interpretasi dari koefisien ini adalah jelas yaitu menyatakan hasil perubahan dalam skala pengukuran dari variabel tak bebas untuk suatu unit perubahan dalam variabel bebas. Dalam model regresi logistik maka 1 = g(x + 1) - g(x), yaitu koefisien slope yang menggambarkan perubahan dalam logit untuk Program Studi Statistika FMIPA Universitas Mulawarman
perubahan dari satu unit di dalam variabel bebas x. Interpretasi yang tepat dari koefisien dalam model regresi logistik bergantung pada kemampuan untuk menempatkan makna dari perbedaaan antara dua buah logit. Pada makalah ini, hanya akan dibahas khusus untuk variabel-variabel bebas yang dikotomus dengan menyajikan data pada tabel kontingensi 2x2. Kasus yang digunakan adalah Pemberantasan Sarang Nyamuk (PSN). Regresi Logistik Regresi logistik digunakan jika variabel terikat bersifat kategorik (nominal atau ordinal) dengan variabel-variabel terikat kontinu maupun kategorik (Agresti, 1990). Variabel terikat Y yang bersifat random dan dikotomus, yakni bernilai 1 dengan probabilitas π dan bernilai 0 dengan probabilitas 1- π , disebut sebagai point-binomial (Le, 1998). Untuk pengamatan ke-i dari sampel (i = 1,2,...,n), Yi adalah variabel Bernoulli dengan distribusi probabilitas (Le, 1998): y 1 y PYi yi πx i i 1 πx i i ; yi = 0,1 dan n = jumlah sampel. Fungsi basis logistik adalah :
f z
1 , z 1 e z dimana z 0 1x . Untuk z untuk
...(1)
maka Lim f ( z) 0 , sedangkan z
z maka Lim f ( z ) 1 . Dengan melihat z
kemungkinan nilai f z yang berkisar antara 0 dan 1, menunjukkan bahwa regresi logistik sebenarnya menggambarkan probabilitas terjadinya suatu event.
9
Jurnal EKSPONENSIAL Volume 3, Nomor 1, Mei 2012
ISSN 2085-7829
Analisis regresi logistik mengasumsikan
Metode estimasi yang mengarah pada fungsi least squares dalam model regresi linier (jika residual berdistribusi normal) disebut maximum likelihood (Hosmer and Lemeshow, 1989). Jika parameter pada model regresi logistik dinotasikan sebagai berikut:
bahwa
hubungan
antara
πx i dan
x i dapat
dijelaskan oleh fungsi logistik pada persamaan (2) berikut (Le, 1998).
πx i
1 , i = 1,2,...,n 1 exp 0 1x i
exp 0 1 x i 1 exp 0 1 x i exp 0 1 x i 1
exp 0 1x i 1 exp 0 1x i
...(2)
Secara umum, model regresi logistik yang dinyatakan sebagai fungsi x adalah (Hosmer and Lemeshow, 1989)
π( x )
0 β 1 ... k
exp( 0 1x ) 1 exp( 0 1x )
...(3)
maka pada dasarnya metode maximum likelihood mengestimasi nilai β dengan memaksimumkan fungsi Likelihood (Hosmer and Lemeshow, 1989). Fungsi distribusi probabilitas untuk setiap pasangan (xi, yi), adalah (Hosmer and Lemeshow, 1989) y 1 y ...(5) f x i πx i i 1 πx i i dimana,
k exp j x ij j 0 π(x i ) k 1 exp j x ij j 0
Untuk mempermudah penaksiran parameter regresi, maka digunakan transformasi logit terhadap π( x ) sehingga menjadi bentuk logit seperti pada persamaan (4) berikut:
π( x )
exp( 0 1x ) 1 exp( 0 1x )
π(x)1 exp( 0 1x)= exp( 0 1x) π(x) π(x) exp( 0 1x)= exp( 0 1x) π( x ) = exp( 0 1x) - π(x) exp( 0 1x) π( x ) = 1 π(x) exp( 0 1x)
l β f x i πx i y 1 πx i 1 y n
g(x) = 0 1x
i 1
i
i 1
πx yi n n i = 1 πx i exp ln i 1 i 1 1 π x i n n πx i ...(6) = 1 πx i exp yi ln i 1 i 1 1 πx i
1x)}
Untuk model pada persamaan (6), logit ke-i
...(4)
k
adalah Estimasi parameter Diasumsikan sebuah sampel berukuran n dan terdiri atas pengamatan independen berpasangan (xi, yi), i = 1,2,...,n, dengan yi menyatakan nilai variabel terikat dan xi adalah nilai variabel bebas untuk subjek ke-i. Pada regresi linier, metode penaksiran parameter yang lazim digunakan adalah least squares, dengan konsep meminimumkan jumlah kuadrat residual. Jika asumsi IIDN terpenuhi, maka metode ini akan menghasilkan estimator yang dapat dianggap valid. Namun, jika diaplikasikan pada model dengan variabel terikat dikotomus, maka estimator yang dihasilkan akan bersifat bias (Hosmer and Lemeshow, 1989).
10
n
i
π( x ) = exp( x) 0 1 1 π( x ) π( x ) = ln {exp( 0 ln 1 π( x ) π( x ) = x 0 1 ln 1 π( x )
Karena antar pengamatan diasumsikan independen, maka fungsi likelihood merupakan perkalian dari masing-masing fungsi distribusi probabilitas pada persamaan (5) (Hosmer and Lemeshow, 1989).
x j 0
j
ij
, sehingga suku eksponensial
terakhir menjadi:
n k n πx i exp yi j x ij exp yi ln i 1 j 0 1 πx i i 1
k n exp yi x ij j j 0 i 1 Selain itu, untuk suku pertama berlaku
k j x ij 1 π x 1 exp i i 1 i 1 j 0 n
1
n
Program Studi Statistika FMIPA Universitas Mulawarman
Jurnal EKSPONENSIAL Volume 3, Nomor 1, Mei 2012
Secara matematis, memaksimumkan ln l β
lebih mudah untuk atau disebut juga ln
likelihood yang dinotasikan sebagai 1990).
L(β ) (Agresti,
L β lnl β
k n k n yi x ij j ln 1 exp j x ij j 0 i 1 i 1 j 0
Maksimum ln likelihood dapat diperoleh dengan cara men-differensialkan L(β ) terhadap
β dan menyamakannya dengan nol (Agresti, 1990).
k exp j x ij n n L β j 0 y i x ia x ia k a i 1 i 1 1 exp j x ij j 0 n
n
i 1
i 1
ˆ x i x ia ; a = 0, 1, …, k 0 yi x ia π ...(7) dimana,
k exp ˆ j x ij j 0 πˆ x i k ˆ 1 exp j x ij j 0 menyatakan
estimasi
ISSN 2085-7829
πx i dengan
dari
menggunakan metode maximum likelihood. Dari hasil penurunan pertama pada persamaan (7), nilai β diestimasi dengan metode numerik karena persamaannya ber-sifat nonlinier. Sedangkan metode untuk mengestimasi varians dan kovarians dari taksiran β dikembangkan menurut teori MLE (Maximum Likelihood Estimator) yang menyatakan bahwa estimasi varians dan kovarians diperoleh dari turunan kedua fungsi ln Likelihood (Agresti, 1990). Turunan kedua dari fungsi ln likelihood yaitu: n 2 L β x ia2 πx i 1 πx i a2 i 1
x ia x ib exp j x ij L β j 0 k a b i 1 1 exp j x ij j 0
=
n
x i 1
x πxi i 1 πxi ;
ia ib
dimana a, b = 0, 1,…,k Sehingga diperoleh matriks varianskovarians dari estimasi parameter melalui invers matriks (Agresti, 1990), 1 ˆ ov βˆ xT Diag[πˆ (x )(1 πˆ (x ))] x …(8) C i i Dengan
1 x11 ... x1k 1 x ... x 2 k 21 x ... ... ... 1 x n1 ... x nk Diag[ πˆ (x i )(1 πˆ (x i ))]
merupakan n x n
matriks diagonal dengan elemen diagonal utama [πˆ (x i )(1 πˆ (x i ))] . Akar kuadrat dari elemenelemen diagonal utama adalah estimasi standar eror dari taksiran parameter model (Agresti, 1990). Dimana untuk mendapatkan nilai taksiran β dari penyelesaian turunan pertama fungsi ln likelihood yang non linier digunakan metode iterasi NewtonRaphson (Agresti, 1990). Metodologi Penelitian Penelitian ini menggunakan studi literatur dan contoh kasus menggunakan data hasil penelitian Wijiati (2011) dengan Kejadian Malaria sebagai variabel terikat, dan Kebiasaan di Luar Rumah sebagai variabel bebas. Hasil dan Pembahasan Pada variabel bebas yang berbentuk dikotomus atau biner, kita asumsikan bahwa x diberi kode 1 atau 0. Di bawah model tersebut, maka akan terdapat dua buah nilai (x) dan dua buah nilai 1 - (x). Nilai-nilai tersebut secara jelas dapat dijelaskan dalam tabel 2x2 sebagaimana ditunjukkan pada Tabel 1. Tabel 1. Nilai-nilai Model Logistik Untuk Variabel Bebas Dikotomus Variabel Bebas x=1 x=0 0 1 Variabel e e 0 Respon y = 1 ( 0 ) (1)
1 e
0
1
1 e
0
k
2
n
Program Studi Statistika FMIPA Universitas Mulawarman
y=0
1 (1)
1 1 1 ( 0) 0 1 1 e 1 e 0
Total 1 1 Odds dari variabel terikat yang muncul diantara data pengamatan dengan x = 1
11
Jurnal EKSPONENSIAL Volume 3, Nomor 1, Mei 2012
ISSN 2085-7829
didefinisikan sebagai (1)/[1 - (1)]. Demikian juga halnya, odds dari variable terikat yang muncul diantara data pengamatan dengan x = 0 didefinisikan sebagai (0)/[1 - (0)]. Logaritma dari odds disebut sebagai logit, dalam hal ini adalah:
Secara teori, untuk ukuran sampel yang cukup besar, maka distribusi dari ˆ akan normal. Tentu saja, syarat-syarat tentang ukuran sampel ini dalam kebanyakan penelitian selalu menjadi kendala. Sehingga, inferensi yang biasa dilakukan adalah berdasarkan pada distribusi dari ln{ ˆ ) = ˆ , yang cenderung untuk mengikuti distribusi 1 normal untuk ukuran sampel yang relatif lebih kecil. Penaksir untuk interval kepercayaan 100(1-)% bagi odds rasio diperoleh melalui perhitungan titik akhir dari interval kepercayaan untuk koefisien 1, kemudian dibuat harga eksponennya. Secara umum, dapat juga ditulis sebagai berikut: exp[ ˆ1 z1 / 2SE ( ˆ1)]
g(1) = ln {(1)/[1 - (1)]} dan g(0) = ln {(0)/[1 - (0)]} Odds rasio, yang dinotasikan oleh , didefinisikan sebagai rasio dari odss untuk untuk x = 1 terhadap x = 0 yang diberikan dalam persamaan berikut:
(1) /[1 (1)] (0) /[1 (0)]
... (13)
Logaritma dari odds rasio (kadang-kadang disebut juga sebagai log-odds rasio atau log-odds) adalah:
(1) /[1 (1)] = g(1) - g(0) (0) /[1 (0)]
ln( ) ln
Selanjutnya, dengan menggunakan bentuk model regresi logistik yang ditunjukkan dalam Tabel 1, maka odds rasionya adalah:
e 0 1 1 1 e 0 1 1 e 0
1 (a b)
ˆ (a, b) exp ˆ1(a b) ... (14)
ln e 1 = 1.
Kenyataan tersebut yang berkenaan dengan interpretabilitas koefisien merupakan alasan yang sangat mendasar mengapa regresi logistik mempunyai kemampuan alat analitis yang kuasa untuk penelitian-penelitian di bidang epidemiologi. Sejalan dengan penaksiran titik parameter, maka penaksir interval kepercayaan juga dapat digunakan untuk memberikan informasi tambahan. Odds rasio, , biasanya merupakan parameter yang banyak diamati dalam regresi logistik karena kemudahannya dalam menginterpretasikannya. Akan tetapi, penaksir ˆ akan cenderung mempunyai distribusi yang kemiringan tertentu. Kemiringan distribusi sampling ˆ disebabkan oleh kenyataannya bahwa penaksir tersebut dibatasi oleh nol.
12
... (15)
dan penaksir odds rasionya adalah:
dan perbedaan logit atau log-oddsnya adalah ln() =
=
e0 1 0 0 1 1 e 1 e
e 0 1 e 1 e0
Penaksir odds rasio untuk setiap variabel bebas pada dua level yang berbeda, katakan x = a dan x = b, adalah perbedaan antara penaksir logit yang dihitung pada kedua nilai tersebut. (Kleibaum, 1994). Persamaan yang menyatakan perhitungan tersebut adalah sebagai berikut: ln ˆ (a, b) gˆ ( x a) gˆ ( x b) = ˆ0 ˆ1a ˆ0 ˆ1b
... (16)
Bentuk di atas akan sama dengan exp( ˆ1) hanya jika (a - b) =1. Dalam persamaan (15) dan (16), notasi (a,b) digunakan untuk menggambarkan odds rasio dalam bentuk:
(a , b)
( x a ) / [1 ( x a )] ( x b) / [1 ( x b)]
... (17)
dan jika a = 1 dan b = 0, maka dapat ditentukan = (1,0). Suatu contoh kasus untuk interpretasi parameter dalam regresi logistik untuk variabel bebas dikotomus akan disajikan dalam tabel 2x2. Di sini akan diamati tentang ada tidaknya suatu penyakit, yaitu kejadian malaria, dengan variabel bebasnya adalah kebiasaan di luar rumah, dimana untuk responden yang menjawab Ya diberi kode 0 dan Tidak diberi kode 1, seperti yang ditunjukkan dalam Tabel 2.
Program Studi Statistika FMIPA Universitas Mulawarman
Jurnal EKSPONENSIAL Volume 3, Nomor 1, Mei 2012
ISSN 2085-7829
Tabel 2. Data Tentang Kejadian Malaria dan Kebiasaan di Luar Untuk 80 data Kejadian Berada Diluar Malaria Rumah(x) Total (y) Ya Tidak Ya 26 15 41 Tidak 14 25 39 Total 40 40 80 Data pada Tabel 2 menggambarkan bahwa terdapat 26 subyek dengan nilai (x=1, y=1), 15 subyek dengan (x=0, y=1), 14 subyek dengan (x=0, y=0), dan 25 subyek dengan (x=0, y=0).
Ali, M. (2006). Psikologi Remaja : PT Bumi Aksara. Jakarta. Hosmer, D.W. and S. Lemeshow (1989). Applied Logistic Regression. New York: John Wiley and Sons. Le, C. T. (1998). Applied Categorical Data Analysis. John Wiley and Sons, Inc. USA. Nursiah. (2010). Hubungan Antara Pengetahuan Dan Pendidikan Kesehatan Reproduksi Dengan Perilaku Seksual Pada Siswa Sma Kesatuan 1 Samarinda Tahun 2010, Skripsi. UWGM Notoatmodjo, S. (2003). Pendidikan Dan Perilaku Kesehatan. Jakarta: PT. Rineka Cipta.
Sedangkan hasil estimasi parameter model regresi logistik disajikan pada Tabel 3 berikut: Tabel 3. Hasil Perhitungan Pendugaan Model Regresi Logistik Variabel
Penaksir koefisien 1.130
Galat Baku 0.465
Kebiasaan diluar 3.095 rumah Konstanta -1.680 0.729 Besaran merupakan penaksir kemungkinan maksimum dari odds rasio, = e1.130 = 3.095. Jika dihitung secara langsung akan diperoleh nilai yang sama seperti ditunjukkan sebagai berikut: 26 / 14 ˆ 3.095 15 / 25 Artinya, resiko terjadinya penyakit malaria pada seseorang yang mempunyai kebiasaan diluar rumah adalah 3.095 kali dibandingkan yang tidak mempunyai kebiasaan diluar rumah. Penaksir koefisien dapat dihitung secara langsung, yaitu:
= ln[(26/14)/(15/25)] = 1.130. Interval kepercayaan 95% untuk data di atas adalah: exp(1.130 1.96 x 0.465) = (2.184;4.006). Nilai batas bawah interval kepercayaan lebih besar dari 1 sehingga memperkuat dugaan bahwa Berada di Luar Rumah merupakan faktor resiko terhadap terjadinya Penyakit Malaria. Kesimpulan Berdasarkan hasil dan pembahasan tersebut, maka dapat disimpulkan bahwa interpretasi parameter dalam model regresi logistik untuk variabel bebas dikotomus dapat dilihat dari koefisien regresi logistik dengan menentukan nilai odds rasio. Hal ini dapat memberikan suatu landasan bagi interpretasi dari semua hasil-hasil yang diperoleh melalui analisis regresi logistik. Daftar Pustaka Agresti, A. (1990). Categorical Data Analysis. New York: John Wiley and Sons.
Program Studi Statistika FMIPA Universitas Mulawarman
13
Jurnal EKSPONENSIAL Volume 3, Nomor 1, Mei 2012
14
ISSN 2085-7829
Program Studi Statistika FMIPA Universitas Mulawarman