LECTURE NOTES LIMITED DEPENDENT VARIABLE (LDV) MODEL
Pendahuluan
Pada bahasan sebelumnya telah dibahas model regresi linier dimana variabel dependen (respons) bertipe numerik dan diasumsikan dapat mengambil nilai berapapun tanpa adanya batasan.
Dalam beberapa kasus, seringkali peneliti membangun model regresi dengan variabel tak bebas yang bersifat kualitatif untuk menjawab fenomena permasalahan yang dihadapi.
Variabel yang bersifat kualitatif umumnya bersifat nominal yang terdiri dari beberapa kategori (dikotomi). Variabel dikotomi biasanya hanya terdiri atas dua nilai, yang mewakili kemunculan atau tidak adanya suatu kejadian, seperti: berhasil atau gagal; lulus atau tidak lulus; melakukan pembelian atau tidak; terpilih atau tidak terpilih; dan lain-lain. Namun dalam kasus tertentu juga dimungkinkan vaiabel dikotomi dengan lebih dari dua nilai.
Untuk mengestimasi parameter model dengan variabel respon kualitatif, kita tidak bisa lagi menggunakan metode estimasi (OLS)
sebagaimana model
regresi yang telah
dibahas
sebelumnya. 1 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
Tidak hanya pendekatan estimasi yang berbeda, interpretasi parameter model regresi dengan variabel kualitatif yang terdiri dari beberapa kategori juga berbeda.
Model regresi dengan variabel kualitatif merupakan salah satu model yang dipergunakan pada situasi yang cenderung menggambarkan
ketergantungan
dalam
bentuk
peluang
bersyarat.
Seperti halnya model regresi linier sebelumnya, model ini juga dapat digunakan untuk mengetahui hubungan atau pengaruh dua variabel independen atau lebih terhadap variabel dependen, baik secara bersama-sama maupun secara individu. Namun berbeda dengan model regresi sebelumnya, intepretasi hubungan antara variabel tak bebas dengan variabel bebes bersifat probabilistik.
Beberapa metode yang dapat digunakan untuk mengestimasi model regresi dengan variabel respon kualitatif antara lain: o Linear Probability Model (LPM) o Logistic Regression o Probit Regression
Sifat variabel dependen lainnya yang memberikan hambatan bagi penerapan OLS adalah count data. Disini nilai variabel dependen atau respon harus bersifat integer dan non negatif. Variabel semacam ini misalnya adalah frekuensi kunjungan, 2
Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
jumlah anak, pembelian kendaraan bermotor, dsb. Regresi Poisson dapat mengakomodasikan variabel semacam ini.
Kemdian, jika nilai variabel dependen adalah kontinu tetapi hanya terbatas pada range tertentu juga merupakan hambatan bagi penerapan OLS secara langsung. Variabel semacam ini misalnya Indeks Prestasi, persentase kepesertaan pensiun, nilai TOEFL, dsb. Data yang dimiliki disebut censored jika nilai variabel
tergantung
dibatasi.
Model
untuk
mengatasi
masalah ini disebut censored regression.
Linear Probability Model
Linear Probability Model (LPM) merupakan metode regresi bekerja dengan dasar bahwa variabel respon Y, yang merupakan probabilita terjadinya sesuatu, mengikuti distribusi Bernoulli dimana: Yi 1 0 Total
Probabilitas Pi 1-Pi 1
Estimasi parameter dalam LPM mengasumsikan bahwa probabilitas bersifat linier terhadap variabel penjelas. Oleh karenanya model ini sangat minim dalam menjelaskan variabel dependen yang bersifat kategorik atau diskrit.
3 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
Oleh karena LPM mengasumsikan bahwa probabilitas bersifat linier terhadap variabel penjelas, maka parameter LPM diestimasi dengan menggunakan metode OLS.
Perhatikan model regresi berikut:
Yi 0 1 X i i
(1)
Dengan o Yi = 1, jika keluarga membeli mobil dan 0, jika keluarga tidak membeli mobil. o Xi = Pendapatan keluarga o i adalah error term
Model (1) disebut juga dengan model LPM karena probabilitas keputusan keluarga untuk membeli mobil adalah fungsi linier dari pendapatan individu.
Expexted value dari model (1) dinyatakan sebagai berikut:
E Yi | X i 0 1 X i
(2)
Jika Pi adalah probabilitas bahwa Yi=1, atau keluarga membeli mobil, dan (1-Pi) adalah probabilitas bahwa Yi=0, atau keluarga tidak membeli mobil, maka: E Yi | X i 1 Pi 0 1 Pi Pi
(3)
Karena nilai suatu peluang Pi berada di antara 0 dan 1, maka:
0 E Yi | X i 1
4 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
Di
antara
pendekatan
yang
dapat
digunakan
untuk
mengestimasi parameter model regresi dengan variabel respon kualitatif, pendekatan LPM relatif sedernaha karena parameter di estimasi dengan menggunakan metode OLS. Namun pendekatan LPM memiliki permasalahan karena melanggar asumsi-asumsi yang mendasari metode OLS, di antaranya: 1. Variabel error tidak berdistribusi normal. Bentuk (1) dapat dituliskan kembali menjadi:
i Yi 0 1 X i
(4)
Sehingga: Jika Yi=1 maka
i 1 0 1 X i dengan probabilitas Pi.
Jika Yi=0 maka i 0 0 1 X i dengan probabilitas (1-Pi). Dari hasil di atas, dapat di lihat bahwa variabel gangguan tidak berdistribusi normal, melainkan berdistribusi binomial atau berdistribusi Bernoulli. 2. Varian error tidak konstan (bersifat heteroskedastis). Dalam LPM dapat ditunjukkan bahwa varian dari error tidak konstan atau bersifat heteroskedastis. Hal ini menunjukkan bahwa pendekatan LPM tidak menghasilkan varian yang minimum atau inefisien, atau penduga dari LPM tidak bersifat BLUE. Perhatikan kembali: Jika Yi=1 maka i 1 0 1 X i dengan probabilitas Pi. 5 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
Jika Yi=0 maka i 0 0 1 X i dengan probabilitas (1-Pi). Sehingga
E i Pi 1 0 1 X i 1 Pi 0 0 1 X i 0 var i E i E i E i 2 2
Pi 1 0 1 X i 1 Pi 0 0 1 X i , 2
2
(karena Pi 0 1 X i ) 0 1 X i 1 0 1 X i 1 0 1 X i 0 0 1 X i 2
2
1 0 1 X i 0 1 X i
Pi 1 Pi
Dari hasil di atas dapat dilihat bahwa varian dari error ( var i ) bergantung dari nilai Pi yang juga bergantung dari Xi. Denga kata lain nilai dari var i bervariasi dan tidak konstan. 3. Nilai
dari
E Yi | X i
tidak
selalu
terletak
pada
0 E Yi | X i 1 . Dalam LPM kita tidak bisa menjamin bahwa nilai prediksi terhadap Y berada di antara range probabilita yang mungkin (0 sampai 1). Dalam LPM ada kalanya kita mendapatkan nilai prediksi Y di bawah 0 atau di atas 1. Namun untuk mengatasi permasalahan ini LPM mengasumsikan bahwa jika nilai prediksi Y di bawah 0 atau negatif, maka nilai prediksi Y 6 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
dianggap 0. Begitu juga jika nilai prediksi Y di atas 1, maka nilai prediksi Y dianggap 1. 4. R² tidak dapat digunakan sebagai pengukur Goodness of Fit Model. Dalam model regresi “biasa” dengan variabel dependen numeris, metoda OLS menghasilkan R2 dapat yang dapat digunakan untuk mengkur Godness of Fit Model. Namun dalam LPM karena variabel dependen bersifat kualitatif atau dikotomis (0 dan 1) maka R² tidak menjamin nilai prediksi Y dekat dengan data aktualnya atau tidak variabel bebas dalam menjelaskan variasi dari nilai Y. Perhatikan sebaran data dan garis regresi LPM berikut:
Studi Kasus: Linear Probability Model Perhatikan Model regresi berikut:
Yi 0 1 X i i dengan
7 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
o Yi = 1, jika keluarga membeli mobil dan 0, jika keluarga tidak membeli mobil. o Xi = Pendapatan keluarga (Juta Rupiah) Dependent Variable: Y Method: Least Squares Date: 02/24/13 Time: 21:39 Sample: 1 130 Included observations: 130 Variable
Coefficient
Std. Error
t-Statistic
Prob.
C X1
-0.737692 0.325728
0.031630 0.008265
-23.32237 39.41071
0.0000 0.0000
R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood F-statistic Prob(F-statistic)
0.923864 0.923269 0.137032 2.403553 74.92612 1553.204 0.000000
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. Durbin-Watson stat
0.415385 0.494695 -1.121940 -1.077824 -1.104014 2.091671
Interpretasi:
Nilai koefsien estimasi X1 sebesar 0,3257 yang signifikan pada taraf nyata 5 persen menjelaskan bahwa pendapatan keluarga yang lebih tinggi 1 juta Rupiah memiliki peluang membeli mobil sebesar 32,57 persen lebih tinggi.
Logit Regression
Model regresi logit merupakan bentuk khusus dari model regresi dimana variabel tak bebasnya bersifat kualitatif yang terbagi menjadi beberapa kategori (dikotomi) 8
Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
Model regresi logit merupakan salah satu model yang dipergunakan pada situasi yang cenderung menggambarkan ketergantungan dalam bentuk peluang bersyarat
Model regresi logit tidak mengasumsikan hubungan antara variabel independen dan dependen secara linier. Regresi logit merupakan regresi non linier dimana model yang ditentukan akan mengikuti pola kurva yang menunjukkan suatu fungsi logistik. F(z) 1
F ( z)
ez 1 ez
0,5
0
Model regresi logit biner adalah model regresi logit yang mana variabel tak bebasnya terdiri dari dua kategori, Y =1 (sukses) atau Y = 0 (berhasil) . Secara umum model regresi logit diformulasikan sebagai berikut:
Misalkan fungsi (5) dapat dinyatakan sebagai berikut: P(Y 1) P F ( z ) F 0 1 X1i 2 X 2i P(Y 0) 1 P 1 F 0 1 X1i 2 X 2i
k X ki k X ki
(5) (6) 9
Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
Dari persamaan (5) dapat dilihat bahwa:
z F 1 ( z ) 0 1 X1i 2 X 2i
Pada persamaan (7),
F 1 ( z )
k X ki
(7)
disebut juga sebagai link function,
yaitu suatu fungsi yang menghubungkan antara P dengan persamaan pada ruas kanan persamaan (7).
Dalam model logit, link function yang digunakan dinyatakan sebagai fungsi logistik berikut:
ez F ( z) 1 ez
(8)
atau
F ( z)
e
0 1 X1i 2 X 2 i k X ki
1 e
0 1 X1i 2 X 2 i k X ki
1 e
1
0 1 X1i 2 X 2 i
k X ki
Selanjutnya berdasarkan persamaan (8), dapat diperlihatkan bahwa:
e z e z P F ( z) 1 e z e z P
1 e z 1
e e
z
1 P 1
z
1 P
P 1
1 P 1 10
Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
e z P P 1 P 1 P 1 P 1 e z P 1 P P 1 P 1
e z
ez
1 P P
P 1 P
P z ln 1 P
(9)
Berdasarkan bentuk (7) dan (9), bentuk umum dari regresi logit biner dengan k variabel bebas dapat dinyatakan sebagai berikut: P ln z 0 1 X 1i 2 X 2i 1 P
k X ki ui
(10)
dengan o P bernilai antara 0-1 dengan p adalah kemungkinan bahwa Y = 1
o X1, X2,…, Xk adalah variabel independen, dan adalah koefisien regresi.
Karena fungsi F(z) bersifat nonlinier, maka untuk mengestimasi parameter model regresi logit akan digunakan metode Maximum Estimation Likelihood (MLE).
11 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
Seperti halnya model regresi linier, pada model regresi logit dapat dilakukan pengujian signifikansi parameter secara individual dengan membandingkan nila p-value dari setiap koefisien estimasi dengan taraf nyata yang digunakan.
Sedangkan untuk menguji signifikansi koefisien estimasi secara keseluruhan dapat digunakan uji likelihood ratio yang memiliki distribusi Chi-square 2
Statistik LR diformulasikan sebagai berikut: LR = 2(lur - lr ) dengan lur adalah nilai log likelihood dengan restriksi (model lengkap) dan lr nilai log likelihood tanpa restriksi (hanya menyertakan intersep).
Regresi logistik menghasilkan rasio peluang (odds ratios) terkait dengan nilai setiap prediktor. Peluang (odds) dari suatu kejadian diartikan sebagai probabilitas hasil yang muncul yang dibagi dengan probabilitas suatu kejadian tidak terjadi. Secara umum, rasio peluang (odds ratios) merupakan sekumpulan peluang yang dibagi oleh peluang lainnya. Rasio peluang bagi prediktor diartikan sebagai jumlah relatif dimana peluang hasil meningkat (rasio peluang > 1) atau turun (rasio peluang < 1) ketika nilai variabel prediktor meningkat sebesar 1 unit.
Uji Kecocokan Model 12 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
Untuk menguji kecocokan model pada regresi logit dapat digunakan Hosmer and Lemeshow Goodness of Fit Test. Uji ini Menilai Over All Fit Model terhadap data dengan menggunakan hipotesis sebagai berikut : H0: Model yang dihipotesiskan fit dengan data H1: Model yang dihipotesiskan tidak fit dengan data
Hosmer and Lemeshow Goodness of Fit Test menguji hipotesis nolbahwa data empiris cocok atau sesuai dengan model (tidak ada perbedaan antara model dengan data sehingga dapat dikatakan fit atau cocok). Jika nilai statistik Hosmer and Lemeshow Goodness of Fit Test kurang dari taraf nyata konvensional yang digunakan (0,05), maka hipotesis nol ditolak atau berarti ada perbedaan signifikan antara model dengan nilai observasinya, sehingga Over All Fit Model tidak terpenuhi karena model tidak dapat memprediksi nilai observasinya. Jika nilai statistik Hosmer and Lemeshow Goodness of Fit Test lebih besar dari 0,05, maka hipotesis nol diterima, hal ini menunjukkan model yang digunakan mampu memprediksi nilai observasinya atau dapat dikatakan model dapat diterima karena cocok dengan data observasinya.
Koefisien Determinasi 13 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
Sama halnya dengan model regresi pada umumnya, koefisien determinasi (R2) pada model regresi logit pada dasarnya mengukur
seberapa
jauh
kemampuan
model
dalam
menerangkan variasi atau keragaman variabel dependen. Hal ini dinyatakan dengan berapa persen variabel dependen (Y) dapat dijelaskan oleh variabel independen (X) yang digunakan di dalam model.
Dalam regresi logit ukuran koefisien determinasi yang digunakan adalah Nagelkerke’s R2 yang merupakan modifikasi dari koefisien Cox and Snell untuk memastikan bahwa nilainya bervariasi dari nol (0) sampai dengan satu (1).
Nilai Nagelkerke’s
R2 dapat diinterpretasikan seperti nilai
koefisien determinasi (R2) pada regresi logistik (logit). Formulasi koefisien determinasi tersebut mengacu pada nilai likelihood function yang diekspresikan sebagai berikut:
R2
2log L0 2log L1 2log L0
(4.3)
dengan: L0 = nilai maksimum likelihood function (fungsi probabilitas) jika semua koefisien slope kecuali intersep bernilai 0.
L1 = nilai dari likelihood fuction untuk semua parameter di
dalam model. 14 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
Selain menggunakan Nagelkerke’s R2, pengukuran koefisien determinasi pada regresi logit dapat menggunakan pseudo Rsquared (Mc Faden, 1974) yang diformulasikan sebagai berikut:
Pseudo R 2 1
lur lr
Studi Kasus: Logit Regression
Perhatikan Model regresi berikut:
Yi 0 1 X1i 2 X 2i 31 X 31i 32 X 32i i dengan o Yi = 1, jika individu membeli mobil dan 0, jika individu tidak membeli mobil. o X1 = Usia Individu o X2 = Jenis kelamin (1, Laki-laki dan 0, Wanita) o X31 = Pendapatan Individu (1, sedang dan 0, lainnya (rendah)). o X32 = Pendapatan Individu (1, tinggi dan 0, lainnya (rendah)).
Dependent Variable: Y Method: ML - Binary Logit (Quadratic hill climbing) Date: 02/24/13 Time: 22:02 Sample: 1 130 Included observations: 130 Convergence achieved after 4 iterations Covariance matrix computed using second derivatives Variable
Coefficient
Std. Error
z-Statistic
Prob.
15 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
C X1 X2 X31 X32
2.760273 -0.103219 0.760851 -0.016690 0.815791
McFadden R-squared S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. LR statistic Prob(LR statistic)
0.081866 0.494695 1.323306 1.433596 1.368120 14.44743 0.005996
Obs with Dep=0 Obs with Dep=1
76 54
1.832108 0.047407 0.390235 0.525905 0.453115
1.506610 -2.177285 1.949727 -0.031735 1.800405
Mean dependent var S.E. of regression Sum squared resid Log likelihood Restr. log likelihood Avg. log likelihood
0.1319 0.0295 0.0512 0.9747 0.0718 0.415385 0.474726 28.17055 -81.01489 -88.23861 -0.623191
Total obs
130
Interpretasi:
Koefisien dalam model logit menunjukkan perubahan dalam logit
sebagai
akibat
perubahan
satu
satuan
variabel
independent.
Dalam model logit, dikembangkan pengukuran yang dikenal dengan nama odds ratio ( ). Odds ratio untuk masing-masing variabel ditampilkan oleh SPSS sebagaimana yang terlihat tabel diatas (kolom Exp(B)).
Odds ratio dapat dirumuskan: e , dimana e adalah bilangan natural dan adalah koefisien masing-masing variabel.
Sebagai contoh, odds ratio untuk variabel X1 adalah
e0,1032 0,902 . Dalam kasus variabel X1 (umur), dengan odds ratio sebesar 0,902 dapat diartikan bahwa konsumen yang berumur lebih tua 16 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
satu tahun peluang membeli mobilnya adalah 0,902 kali dibandingkan konsumen umur yang lebih muda (satu tahun), jika pendapatan dan jenis kelamin mereka sama. Artinya orang yang lebih tua memiliki peluang yang lebih rendah dalam membeli mobil.
Dalam kasus variabel X2 (jenis kelamin dimana 1 = laki-laki dan 0 = wanita), dengan odds ratio sebesar 2,14 dapat diartikan bahwa peluang laki-laki untuk membeli mobil adalah 2,14 kali dibandingkan wanita, jika umur dan pendapatan mereka sama. Artinya laki-laki memiliki peluang lebih tinggi dalam membeli mobil dibandingkan wanita.
Selanjutnya, dalam konteks variabel pendapatan, terlihat bahwa X31 tidak berpengaruh signifikan. Artinya, peluang membeli mobil antara konsumen pendapatan sedang dan pendapatan rendah adalah sama saja. Sebaliknya, untuk X32 dengan odds ratio 2,261, dapat diinterpretasikan bahwa peluang membeli mobil konsumen pendapatan tinggi adalah 2,261 kali dibandingkan pendapatan rendah, jika umur dan jenis kelaminnya sama. Expectation-Prediction Evaluation for Binary Specification Equation: UNTITLED Date: 02/24/13 Time: 22:08 Success cutoff: C = 0.5 Estimated Equation Dep=0 Dep=1 Total P(Dep=1)<=C
58
32
90
Constant Probability Dep=0 Dep=1 Total 76
54
130
17 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
P(Dep=1)>C Total Correct % Correct % Incorrect Total Gain* Percent Gain**
18 76 58 76.32 23.68 -23.68 NA
22 54 22 40.74 59.26 40.74 40.74
40 130 80 61.54 38.46 3.08 7.41
Estimated Equation Dep=0 Dep=1 Total E(# of Dep=0) E(# of Dep=1) Total Correct % Correct % Incorrect Total Gain* Percent Gain**
47.82 28.18 76.00 47.82 62.92 37.08 4.45 10.72
28.18 25.82 54.00 25.82 47.81 52.19 6.27 10.72
76.00 54.00 130.00 73.63 56.64 43.36 5.21 10.72
0 76 76 100.00 0.00
0 54 0 0.00 100.00
0 130 76 58.46 41.54
Constant Probability Dep=0 Dep=1 Total 44.43 31.57 76.00 44.43 58.46 41.54
31.57 22.43 54.00 22.43 41.54 58.46
76.00 54.00 130.00 66.86 51.43 48.57
*Change in "% Correct" from default (constant probability) specification **Percent of incorrect (default) prediction corrected by equation
Goodness-of-Fit Evaluation for Binary Specification Andrews and Hosmer-Lemeshow Tests Equation: UNTITLED Date: 02/24/13 Time: 22:12 Grouping based upon predicted risk (randomize ties) Quantile of Risk Low High 1 2 3 4 5 6 7 8 9 10
0.1083 0.2029 0.2575 0.3188 0.3526 0.4010 0.4515 0.5166 0.5519 0.6651
0.2029 0.2544 0.3188 0.3526 0.4010 0.4515 0.5004 0.5519 0.6266 0.8393 Total
H-L Statistic Andrews Statistic
Actual
Dep=0 Expect
Actual
Expect
Total Obs
H-L Value
11 12 11 9 8 4 3 6 5 7
10.7529 10.0288 9.31551 8.60296 7.96542 7.41045 6.73136 6.09153 5.35434 3.74669
2 1 2 4 5 9 10 7 8 6
2.24711 2.97116 3.68449 4.39704 5.03458 5.58955 6.26864 6.90847 7.64566 9.25331
13 13 13 13 13 13 13 13 13 13
0.03285 1.69516 1.07472 0.05417 0.00039 3.65045 4.28945 0.00259 0.03987 3.96872
76
76.0000
54
54.0000
130
14.8084
14.8084 15.8439
Dep=1
Prob. Chi-Sq(8) Prob. Chi-Sq(10)
0.0630 0.1042
18 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
Model Regresi Probit
Pada dasarnya ide dasar dari model Probit sama dengan model Logit.
Kedua model
tersebut
sama-sama menggunakan
Cummulative Distribution Function (CDF) yang lebih cocok dalam menjelaskan prilaku variabel respon yang bersifat kualitatif. Hanya saja pada model logit bentuk fungsi distsribusi yang digunakan adalah fungsi distribusi logistik, namun di sini model probit menggunakan bentuk fungsi distribusi normal.
Perbandingan antara model distribusi logitan probit disajikan pada Gambar berikut: F(z) 1
Probit Logit
0,5
0
Model Distribusi Normal dan Distribusi Logit
Sekarang perhatikan persamaan regresi sebagai berikut:
z F 1 z 0 1 X1i 2 X 2i
k X ki
Jika terdapat suatu nilai kritikal (threshold) zi* yang lebih rendah atau sama dengan zi maka peluang terjadinya suatu
19 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
kejadian sukses akan semakin besar, begitu juga sebaliknya. Kondisi ini dapat ditulis sebagai berikut:
Sukses (1) ; zi zi* Kejadian * Gagal (0) ; zi zi
Probabilitas zi zi* dapat dihitung dari standardize normal CDF:
P(Y 1) P F ( zi zi* ) F 0 1 X1i 2 X 2i
k X ki
Dimana P(Y 1) menjelaskan bahwa probabilitas terjadinya sukses untuk nilai X tertentu dan zi adalah variabel standar
2 normal dimana zi ~ N 0, . Selanjutnya standar normal CDF
dapat dituliskan sebagai berikut:
1 Pi F Zi 2 Pi F Zi
1 2
zi
z /2 e dz 2
0 1 X1i 2 X 2 i k X ki
e z / 2dz 2
Dari persamaan di atas Pi menyatakan probabilitas terjadinya kejadian sukses, kondisi ini digambarkan oleh area kurva standar di bawah normal dari sampai zi . Nilai Pi akan terletak di antara 0 sampai 1.
Seperti halnya regresi logit, interpretasi hasil estimasi regresi probit tidak bisa diinterpretasikan secara langsung. Bila dalam regresi logit kita dapat menjelaskan bagaimana pengaruh parsial dari setiap variabel bebas terhadap variabel tak bebas 20
Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
dengan menggunakan odds ratio, maka dalam kasus regresi probit kita dapat menggunakan marginal effect.
Marginal effect dari variabel Xi terhadap P(Y=1) adalah:
P(Y 1) ˆ i F ˆ0 ˆ1 X 1i ˆ2 X 2i Xi
ˆk X ki
21 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
Studi Kasus: Model Regresi Probit Perhatikan studi kasus sebelumnya dimana diberikan:
Yi 0 1 X1i 2 X 2i 31 X 31i 32 X 32i i dengan o Yi = 1, jika individu membeli mobil dan 0, jika individu tidak membeli mobil. o X1 = Usia Individu o X2 = Jenis kelamin (1, Laki-laki dan 0, Wanita) o X31 = Pendapatan Individu (1, sedang dan 0, lainnya (rendah)). o X32 = Pendapatan Individu (1, tinggi dan 0, lainnya (rendah)). Sekarang untuk mengestimasi parameter di atas akan digunakan model regresi probit, hasilnya disajikan sebagai berikut: Dependent Variable: Y Method: ML - Binary Probit (Quadratic hill climbing) Date: 02/09/14 Time: 19:19 Sample: 1 130 Included observations: 130 Convergence achieved after 5 iterations Covariance matrix computed using second derivatives Variable
Coefficient
Std. Error
z-Statistic
Prob.
C X1 X2 X31 X32
1.572183 -0.060491 0.465701 0.004391 0.507990
1.084735 0.027778 0.238468 0.323401 0.277595
1.449370 -2.177676 1.952882 0.013578 1.829968
0.1472 0.0294 0.0508 0.9892 0.0673
McFadden R-squared S.D. dependent var Akaike info criterion
0.081648 0.494695 1.323601
Mean dependent var S.E. of regression Sum squared resid
0.415385 0.474945 28.19664
22 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
Schwarz criterion Hannan-Quinn criter. Restr. deviance LR statistic Prob(LR statistic) Obs with Dep=0 Obs with Dep=1
1.433891 1.368416 176.4772 14.40904 0.006098
Log likelihood Deviance Restr. log likelihood Avg. log likelihood
76 54
-81.03408 162.0682 -88.23861 -0.623339
Total obs
130
Marginal Effect: Dibahas dikelas…. Expectation-Prediction Evaluation for Binary Specification Equation: UNTITLED Date: 02/09/14 Time: 19:25 Success cutoff: C = 0.5
P(Dep=1)<=C P(Dep=1)>C Total Correct % Correct % Incorrect Total Gain* Percent Gain**
Estimated Equation Dep=0 Dep=1 Total
Constant Probability Dep=0 Dep=1 Total
58 18 76 58 76.32 23.68 -23.68 NA
76 0 76 76 100.00 0.00
32 22 54 22 40.74 59.26 40.74 40.74
90 40 130 80 61.54 38.46 3.08 7.41
Estimated Equation Dep=0 Dep=1 Total E(# of Dep=0) E(# of Dep=1) Total Correct % Correct % Incorrect Total Gain* Percent Gain**
47.98 28.02 76.00 47.98 63.13 36.87 4.67 11.23
28.40 25.60 54.00 25.60 47.41 52.59 5.87 10.05
76.37 53.63 130.00 73.58 56.60 43.40 5.17 10.64
54 0 54 0 0.00 100.00
130 0 130 76 58.46 41.54
Constant Probability Dep=0 Dep=1 Total 44.43 31.57 76.00 44.43 58.46 41.54
31.57 22.43 54.00 22.43 41.54 58.46
76.00 54.00 130.00 66.86 51.43 48.57
*Change in "% Correct" from default (constant probability) specification **Percent of incorrect (default) prediction corrected by equation
Goodness-of-Fit Evaluation for Binary Specification Andrews and Hosmer-Lemeshow Tests Equation: UNTITLED Date: 02/09/14 Time: 19:20
23 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
Grouping based upon predicted risk (randomize ties) Quantile of Risk Low High 1 2 3 4 5 6 7 8 9 10
0.1027 0.1984 0.2527 0.3226 0.3530 0.4064 0.4462 0.5094 0.5502 0.6504
Actual
Dep=0 Expect
Actual
Expect
Total Obs
H-L Value
11 12 11 9 8 4 3 5 6 7
10.7872 10.0633 9.29891 8.58949 7.96337 7.42789 6.79293 6.15793 5.43969 3.85416
2 1 2 4 5 9 10 8 7 6
2.21282 2.93672 3.70109 4.41051 5.03663 5.57211 6.20707 6.84207 7.56031 9.14584
13 13 13 13 13 13 13 13 13 13
0.02467 1.64997 1.09304 0.05783 0.00043 3.69074 4.43557 0.41370 0.09924 3.64976
76
76.3748
54
53.6252
130
15.1150
0.1984 0.2527 0.3226 0.3513 0.3988 0.4444 0.5021 0.5502 0.6209 0.8348 Total
H-L Statistic Andrews Statistic
15.1150 16.3834
Dep=1
Prob. Chi-Sq(8) Prob. Chi-Sq(10)
0.0569 0.0892
Model Regresi Poisson
Pada umumnya analisis regresi digunakan untuk menganalisa variabel respon yang merupakan data kontinu dan mengikuti distribusi normal. Namun dalam beberapa aplikasinya, variabel respon yang akan dianalisisa dapat berupa data diskrit atau data cacahan (count data).
Salah satu contoh variabel respon diskrit (count data) adalah banyaknya kejadian yang jarang terjadi (rare event). Misalkan banyaknya kecelakaan mobil setiap bulan, banyaknya hujan badai setiap tahun, banyaknya kebakaran hutan setiap tahun, dan banyaknya penderita kanker paru-paru yang meninggal setiap tahun.
24 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
Salah satu model regresi yang dapat digunakan untuk menjelaskan hubungan antara variabel respon Y yang berupa data diskrit dengan variabel prediktor X berupa data diskrit, kontinu, kategorik atau campuran adalah model regresi Poisson.
Model Regresi Poisson digunakan ketika variabel respon bersifat count variabel, ia hanya dapat mengambil nilai non negative integer value (0,1,2, ...).
Model regresi Poisson berasal dari distribusi Poisson dengan parameter intensitas yang bergantung pada variabel prediktor. Dalam model regresi Poisson terdapat beberapa asumsi yang harus dipenuhi yakni equidispersi yang berarti nilai variansi dari variabel respon Y yang diberikan oleh X = x harus sama dengan nilai meannya yaitu Var(Y|x) = E(Y|x) = .
Jika i adalah rata-rata jumlah kejadian dalam periode t dan diasumsikan i tidak berubah dari titik data ke titik data secara bebas maka dapat dimodelkan sebagai fungsi dari k variabel prediktor.
Dalam Generalized Linier Model (GLM), terdapat sebuah fungsi g yang menghubungkan rata-rata dari variabel responnya dengan sebuah prediktor linier, yaitu:
g i 0 1xi1 2 xi 2
k xik
Fungsi g disebut juga sebagai fungsi penghubung (link function) 25 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
Pada model regresi Poisson, fungsi penghubung yang digunakan adalah fungsi penghubung log karena fungsi log menjamin bahwa nilai variabel yang diharapkan dari variabel responnya akan bernilai nonnegatif.
Berikut ini adalah fungsi penghubung yang digunakan untuk model regresi Poisson:
ln E y | x ln i 0 1xi1 2 xi 2
x ˆ e x
i e
i
0
Masing-masing parameter
1 i 1 2 xi 2
k xik
k xik
dari persamaan di atas dapat
diinterpretasikan sebagai:
%E y | x 100 j x j Dengan kata lain koefisien regresi akan diintrepretasikan sebagai persentase perubahan variabel tergantung akibat perubahan l unit variabel bebas.
Model persamaan di atas bersifat non linier lebih lanjut distribusi dari variabel tergantung (y) adalah non normal (yakni Poisson Distribution). Dengan demikian diperlukan suatu teknik khusus untuk melakukan estimasi terhadap parameter model. Disini dapat digunakan metode Maximum Likelihood Estimation (MLE) atau Quasi Maximum Likelihood Estimation (QMLE). Kita tidak akan menguraikan bagaimana
26 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
estimasi dilakukan karena sangat kompleks dan diluar pembahasan, lihat Wooldridge, 1999 bab 19. Studi Kasus Model Regresi Poisson
Pada studi kasus ini akan diestimasi hubungan antara frekuensi seseorang ditahan (NARR86) dengan berbagai variabel demografis, efektivitas pengadilan, dsb dengan menggunakan model Poisson Regression.
Hasil regresi poisson disajikan
sebagai berikut: Dependent Variable: NARR86 Method: ML/QML - Poisson Count (Quadratic hill climbing) Date: 02/08/14 Time: 21:31 Sample: 1 2725 Included observations: 2725 Convergence achieved after 5 iterations Covariance matrix computed using second derivatives Variable
Coefficient
Std. Error
z-Statistic
Prob.
C PCNV AVGSEN TOTTIME PTIME86 QEMP86 INC86 BLACK HISPAN BORN60
-0.599589 -0.401571 -0.023772 0.024490 -0.098558 -0.038019 -0.008081 0.660838 0.499813 -0.051029
0.067250 0.084971 0.019946 0.014750 0.020695 0.029024 0.001041 0.073834 0.073927 0.064052
-8.915807 -4.725971 -1.191831 1.660318 -4.762515 -1.309897 -7.762374 8.950290 6.760931 -0.796677
0.0000 0.0000 0.2333 0.0969 0.0000 0.1902 0.0000 0.0000 0.0000 0.4256
R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Restr. log likelihood Avg. log likelihood
0.076988 0.073928 0.826712 1855.574 -2248.761 -2441.921 -0.825233
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. LR statistic Prob(LR statistic)
0.404404 0.859077 1.657806 1.679495 1.665646 386.3197 0.000000
Interpretasi: Sebagai ilustrasi, koefisien black=0.66 yang signifikan pada taraf nyata 5% menjelaskan bahwa dengan 27
Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
benchmark kulit putih, dan mengasumsikan variabel lainnya konstan (ceteris paribus), orang kulit hitam diduga memiliki 66% frekuensi penahanan yang lebih tinggi dibandingkan orang kulit putih.
Model Censored Regression
Model censored regression dilakukan ketika (karena alasan tertentu) kita harus membatasi nilai yang dapat diambil oleh suatu variabel dependen. Sebagai contoh, misalkan dalam survey terhadap variabel pengeluaran per bulan, variabel ini dijadikan
bersifat
kategorik.
Kuesioner
biasanya
tidak
mencantumkan setiap pilihan jumlah pengeluaran yang mungkin. Praktik yang umum dilakukan adalah membuat batas atas dan batas bawah.
Batas atas terjadi misalnya dalam kuesioner terdapat pilihan lebih dari 10 juta per bulan (right censoring) dan dibawah 1 juta per bulan (left censoring). Begitu seorang responden memilih opsi ini, kita tidak akan mengetahui dengan akurasi yang baik pengeluaran yang sebenarnya, ia mungkin memiliki pengeluaran 10,5 juta tetapi bisa juga 100 juta. Tentu saja implikasi analisis dari dua data semacam ini sangat berbeda, tetapi kita telah mengabaikannya.
Suatu right censored regression dapat dinyatakan sebagai: 28
Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
yi 0 1 xi1 2 xi 2
k xik ui ; ui
N 0, 2
wi min yi , ci Dimana ci adalah batas atas, dengan demikian nilai y adalah yang terkecil, yi atau ci.
Parameter regresi dapat diestimasi dengan menggunakan teknik MLE, dimana observasi yang disensor diharapkan memiliki probabilitas sebagai berikut:
1 ci xi / ; w ci f w | xi , ci 1 w xi / ; w ci Studi Kasus: Model Censored Regression
Pada studi kasus ini akan dilakukan estimasi durasi (dalam bulan) seorang residivis yang telah bebas untuk kembali ditangkap. Karena
durasi tidak mungkin negatif, dengan
demikian ia adalah left censored dititik nol, sedangkan durasi ditangkap
kembali
dapat
mencapai
beberapa
tahun kemudian sehingga perlu suatu batas atas (disini digunakan 70 bulan).
Berbagai variabel digunakan untuk menjelaskan durasi diantaranya lama kepesertaan pelatihan kerja dipenjara (wrkprg), sudah berapa kali masuk penjara (priors), total
29 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
waktu dipenjara (tserved), dsb. Hasil regresi terhadap 1445 sampel disajikan sebagai berikut: Dependent Variable: LOG(DURAT) Method: ML - Censored Normal (TOBIT) (Quadratic hill climbing) Date: 02/08/14 Time: 22:19 Sample: 1 1445 Included observations: 1445 Left censoring (value) series: 0 Right censoring (value) series: 70 Convergence achieved after 3 iterations Covariance matrix computed using second derivatives Variable
Coefficient
Std. Error
z-Statistic
Prob.
C WORKPRG PRIORS TSERVED FELON ALCOHOL DRUGS BLACK MARRIED EDUC AGE
3.567525 0.007993 -0.060028 -0.009377 0.178753 -0.263500 -0.089668 -0.179162 0.135223 0.005333 0.001332
0.138174 0.049024 0.009208 0.001303 0.058497 0.059903 0.055023 0.047511 0.055522 0.009941 0.000225
25.81901 0.163040 -6.518902 -7.197627 3.055778 -4.398816 -1.629647 -3.770965 2.435496 0.536425 5.912596
0.0000 0.8705 0.0000 0.0000 0.0022 0.0000 0.1032 0.0002 0.0149 0.5917 0.0000
53.48774
0.0000
Error Distribution SCALE:C(12) Mean dependent var S.E. of regression Sum squared resid Log likelihood Avg. log likelihood Left censored obs Uncensored obs
0.877626 3.745150 0.876645 1101.269 -1866.503 -1.291698 8 1437
0.016408
S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter.
Right censored obs Total obs
0.925045 2.600005 2.643818 2.616357
0 1445
Dalam kasus di atas, variabel respon dinyatakan dalam bentuk logaritma (log(durat)). Dengan demikian setiap parameter yang diestimasi dapat diinterpretasikan sebagai semilog. Setiap 30
Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]
kenaikan satu unit variabel bebas akan menyebabkan sebesar %y perubahan pada variabel respon.
Sebagai ilustrasi, pada hasil di atas dapat dilihat bahwa: o Koefisien estimasi PRIORS sebesar -0,06 yang signifikan pada taraf nyata 5% menjelaskan bahwa, residivis yang memiliki frekuensi dipenjara sebelumnya lebih tinggi satu unit dibanding residivis lainnya, diduga akan mengurangi durasi ditangkap kembali sebesar 6% (atau 6% lebih cepat ditangkap). o Koefisien estimasi MARRIED sebesar 0,135 yang signifikan pada taraf nyata 5% menjelaskan bahwa
pernikahan
memiliki dampak positif terhadap durasi, dimana residivis yang menikah memiliki durasi ditangkap kembali 13,5% lebih lama dibandingkan yang tidak menikah.
31 Dipersiapkan oleh: Indra, S.Si, M.Si
[email protected]