MODEL PILIHAN KUALITATIF
Oleh Bambang Juanda
Seringkali dalam suatu survei kita berhadapan dengan peubah kualitatif yang mempunyai skala pengukuran nominal atau ordinal. Nilai-nilai peubah respons kualitatif ini terbatas (limited dependent variable), bahkan sering hanya bernilai dua kemungkinan saja. Misalnya, apakah seseorang membeli mobil atau tidak; memilih atau tidak dalam Pilkada (pemilihan kepala daerah); punya penyakit jantung koroner atau tidak; dan masih banyak contoh lainnya. Peubah kualitatif yang hanya mempunyai dua kemungkinan nilai ini disebut peubah biner.
Meskipun logis kita memperkirakan suatu hubungan langsung antara pendapatan dan perilaku pembelian, namun kita tidak dapat yakin apakah masing-masing konsumen dengan pendapatan tertentu pasti akan membeli produk. Oleh karena itu, tujuan model pilihan kualitatif adalah menentukan peluang bahwa individu dengan karakteristik-karakteristik tertentu akan memilih suatu pilihan tertentu dari beberapa alternatif yang tersedia. Jika pilihannya hanya ada dua alternatif disebut model pilihan biner.
Overview Response
Analysis
Continuous
Linear Regression Analysis
Categorical
-Model Peluang Linear -Model Probit
Ilustrasi Studi mengenai pengaruh tingkat pendapatan, jenis kelamin dan umur terhadap membeli tidaknya seseorang pada suatu produk yang dijual dengan harga tertentu.
Peubah Penjelas (bebas): umur, jenis kelamin dan tingkat pendapatan Peubah Respons(Y): membeli (=1) atau tidak (=0)
Ilustrasi utk 1 Peubah Bebas Studi mengenai pengaruh tk pendapatan atau jenis kelamin (X) terhadap membeli tidaknya seseorang (Y) pada suatu produk yang dijual dengan harga tertentu. Peubah Penjelas (bebas): Tk Pendapatan: X = Rp …… juta atau Jenis Kelamin: X= 1, jika Pria 0, jika Wanita Peubah Respons: Y = 1, jika membeli 0, jika tidak membeli
1. Model Peluang Linear Yi = + Xi + εi (10.1) Dimana Xi = nilai karakteristik (misalnya pendapatan) individu ke-i, Yi = 1 , jika pilihan kesatu dipilih (misalnya membeli mobil) 0 , jika pilihan kedua dipilih (tidak membeli mobil). εi = peubah acak yang menyebar bebas dengan nilai tengah 0. Untuk menginterpretasikan persamaan (10.1) kita tentukan nilai harapan dari masing-masing pengamatan peubah respons Yi : E(Yi) = + Xi (10.2) Karena Yi hanya mempunyai kemungkinan dua macam nilai (1 dan 0), kita dapat menggambarkan sebaran peluang Y dengan memisalkan: Pi = P(Yi=1) dan 1-Pi = P(Yi=0), sehingga E(Yi) = 1 (Pi) + 0 (1-Pi) = Pi. (10.3) model (10.1) peluang bahwa individu konsumen ke-i dengan pendapatan tertentu (Xi) akan membeli mobil. Slope garis mengukur pengaruh perubahan 1 unit pendapatan terhadap perubahan peluang membeli mobil
Dugaan Model Peluang Linear Pi =
+ Xi 1 0
, jika 0<(+Xi)<1 , jika (+Xi) ≥ 1 , jika (+Xi) ≤ 0
(10.4)
Sebaran Peluang bagi εi Yi
εi
Peluang
1
1- - Xi
Pi
0
- - Xi
1 - Pi
E(εi) = (1- - Xi) Pi + (- - Xi) (1-Pi) = 0 sehingga Pi = + Xi (1-Pi) = 1 - - Xi Ragam komponen sisaan E ( i2 ) (1 Xi ) 2 Pi ( X i ) 2 (1 Pi ) Pi (1 Pi ) 2
2
Var(Yi ) E(Yi ) EYi
2 E(Yi )[1 E(Yi )] Pi (1 Pi ) i
Jadi, peubah Y menyebar menurut sebaran (distribusi) peluang Bernouli. Masalah heteroskedastisitas
2 E(i )
Kendala dalam model peluang linear perlu transformasi model (linear) awal sedemikian rupa sehingga prediksi nilai Y berada dalam selang (0;1) untuk semua nilai peubah bebas X. Salah satu bentuk transformasi yang mempunyai karakteristik seperti ini adalah fungsi peluang kumulatif (cumulative probability function), F.[1] Sebaran peluangnya dapat direpresentasikan dalam bentuk: Pi = F( + Xi) = F(Zi) Sebenarnya banyak fungsi peluang kumulatif yang mungkin dapat digunakan, namun disini hanya dua macam yang dipertimbangkan, yaitu fungsi peluang normal dan logistik kumulatif.
[1] Fungsi peluang kumulatif adalah F(xi)=Peluang (X≤xi)
Model Probit Pi = F( + Xi) = F(Zi) asumsikan ada suatu indeks Zi yg bernilai kontinu secara teoritis, yg ditentukan oleh nilai peubah penjelas X shg dapat ditulis: Zi = + Xi asumsikan bahwa Z merupakan peubah acak yang menyebar normal sehingga peluang bahwa Z lebih kecil (atau sama dengan) Zi dapat dihitung dari fungsi peluang normal kumulatif. Untuk fungsi peluang normal baku kumulatif dapat dituliskan dalam rumus:
1 Pi F ( Z i ) 2
Zi
e
s 2 2
ds
dimana s: peubah acak menyebar normal dgn nilai tengah 0 dan ragam1. Dgn rumus transformasi diatas, peubah Pi akan bernilai dlm selang (0;1). Pi menggambarkan peluang individu berkarakteristik (berpendapatan) Xi memilih pilihan-1 (beli mobil). Karena nilai peluang ini diukur berdasarkan luas daerah dibawah kurva normal baku dari - sampai Zi, maka peluang pilihan-1 (beli mobil) makin tinggi jika nilai indeks Zi makin tinggi. Untuk menduga indeks Zi, kita menggunakan kebalikan (inverse) dari fungsi normal baku kumulatif (10.9) dengan: Zi = F-1(Pi) = + Xi
Hubungan Nilai Indeks Z dan Sebaran Peluang Normal Kumulatifnya
Z
F(Z)
Z
F(Z)
-3.0 -2.5 -2.0 -1.5 -1.0 -0.5 0.0
.001 .006 .023 .067 .159 .309 .500
0.5 1.0 1.5 2.0 2.5 3.0 3.5
.691 .841 .933 .977 .994 .999 .999
Model (Peluang) Linear vs Model Probit
Model Linear
Meskipun model probit lebih menarik dari model peluang linear, namun untuk menduga parameter koefisiennya menggunakan pendugaan kemungkinan maksimum (maximum likelihood, ML) non linear. Selain itu, justifikasi atau interpretasi koefisiennya agak terbatas. Oleh karena itu sebaiknya menggunakan model logit yang dibahas dalam subbab berikut
Model Regresi Logistik (Model logit) menggunakan peubah penjelasnya (dpt peubah kategorik atau peubah numerik) untuk menduga peluang kejadian tertentu dari peubah respons kategori. e( X ) Model Logit Sederhana : E (Yi 1 / X i ) 1 e( X ) 0
1
0
P( X i ) Pi
i
i
1
1 1 e ( X ) 0
1
i
1 1 e g ( X )
Interpretasi: Peluang kejadian tertentu dari peubah respons kategori (misalnya membeli) jika pendapatannya Xi
Sebaran Logistik menyerupai kurva berbentuk S, sehingga interpretasinya logis. 0 ≤ E(Y/X) ≤ 1
Transformasi Logit Peluang kejadian tertentu dari peubah respons kategori (pi), ditransformasi shg i pi
pi g ( x ) X logit( pi ) log i 0 1 i 1 pi indeks semua kasus (observasi 1,2,..,n). peluang kejadian (misalnya, membeli) terjadi untuk kasus ke-i.
log adalah natural log (bilangan dasar e). Fungsi g(x) sudah Linear dalam Parameter, dan -~ ≤ g(x) ≤ ~, shg dpt diduga dgn OLS
Assumption (peubah X berskala Interval) Pi
Transformasi logit Predictor (X)
Predictor (X)
Interpretasi Koefisien Model Logit Utk Peubah Bebas biner, mis Jenis Kelamin (X=1, X=0) e( X ) P( X i ) 1 e( X ) 0
1
0
i
1
X=1
X=0
i
Y=1
Y=0 Jumlah
( 0 1 )
e P (1) 1 e( 1 P (1)
0
1 )
1 1 e(
0
1 )
e P ( 0) 1 e 1 1 P ( 0) 1 e
1
P(1) : Peluang membeli produk utk konsumen Pria P(0) : Peluang membeli produk utk konsumen Wanita
P(1) P(0) 1 OddsRatio / e 1 P(1) 1 P(0)
0
0
0
1 P (1) Odd pria 1 P (1) P ( 0) Odd wanita 1 P ( 0)
Interpretasi Koefisien
P( X i ) log g ( X i ) 0 1 X i 1 P( X i )
1 = g(X+1) – g(X) utk X biner: 1 = g(1) – g(0) P (1) P ( 0) P (1) /(1 P (1)) log log log 1 P (1) 1 P (01) P (0) /(1 P (0)) Ukuran Asosiasi
P(1) /1 P(1) e Odds Ratio: P(0) /1 P(0)
1
“Berapa kali Kemungkinan membeli utk konsumen Pria dibandingkan Konsumen Wanita”
Interpretasi Pendekatan Peluang Relatif P(1)/P(0) ini berlaku bila P(x) kecil Utk X kontinu, exp(1) : Berapa kali Kemungkinan membelinya jika X naik 1 unit
Properties of the Odds Ratio ODDS RATIO OF GROUP A TO GROUP B No Association =x
-0.5
=x+1
0
Note: ^ • SK (1-) 100% bagi Odds Ratio: exp(c ± z/2 c s^) • Dlm realitas P(x) jika x berbeda 1 unit (12 dgn 1011) dapat cukup berbeda. →Dilema utk peubah kontinu dimodelkan linear dlm model logit. Jika yakin bahwa logit tdk linear dgn covariate grouping (Dummy)
Multiple Logistic Regression
Purchase
Gender Income
Age
logit (pi) = 0 + 1X1 + 2X2 + 3X3
Ilustrasi model utk mengkaji pengaruh jenis kelamin (X1), umur (X2), dan tingkat pendapatan (X2) terhadap membeli tidaknya seseorang pada suatu produk yang dijual dengan harga tertentu.
( 0 1 X i 2 X 2 i 3 X 3 i )
e P( X i ) ( 1 e
0
1 X i 2 X 2 i 3 X 3 i )
P( X i ) g ( X i ) 0 1 X 1i 2 X 2i 3 X 3i logit (pi) = log 1 P( X i ) Utk Peubah Bebas X kontinu, seringkali 1 unit terlalu kecil atau besar utk dipertimbangkan Pendugaan utk perubahan “c” unit
g(x+c) – g(x) = c 1 Odds Ratio-nya: (c) ( x c, x) e
c1
Pengujian Model dgn p Peubah Bebas Uji Model secara keseluruhan: H0: 1= 2=…=p=0 H1: ada j≠0 Likelihood Ratio Test Statistics (G) ~ Uji parsial koefisien: H0: j=0 H1: j≠0 WaldTest Statistics (W) ~ Z
2 (p)
Categorical Variables Codings Param eter Frequ ency (1) IN C O M E Low 132 1,000 M edium 144 ,000 H igh 155 ,000 G EN D ERFem ale 240 1,000 M ale 191 ,000
a Classification Table
codin g (2) ,000 1,000 ,000
Predicted PU R C H ASE Percentage 0 1 C orrect 236 33 87,7 131 31 19,1 61,9
O bserved Step 1 PU R C H ASE
0 1 O verall Percentage
a. The cut value is ,500
Variables in the Equation
Sate p 1
B .0 2 5 .5 1 1
AGE G E N D E R (1 ) IN C O M E IN C O M E (1 ) -.7 87 IN C O M E (2 ) -.6 86 C o n stan t -1 .32 5
S .E . .0 1 8 .2 0 9 .2 5 3 .2 4 3 .7 2 0
W a ld 1 .9 7 4 5 .9 5 4 1 2 .3 0 5 9 .6 7 6 7 .9 4 5 3 .3 8 2
df 1 1 2 1 1 1
a . V a ria b le( s) e n ter e d o n ste p 1 : A G E , G E N D ER , IN C O M E.
S ig . .1 6 0 .0 1 5 .0 0 2 .0 0 2 .0 0 5 .0 6 6
E xp( B) 1 .0 2 6 1 .6 6 7 .4 5 5 .5 0 3 .2 6 6
Adjusted Odds Ratio Predictor
Outcome
Gender
Purchase
Controlling for
Types of Logistic Regression Response Variable Two Categories Three or More Categories
Type of Logistic Regression
Binary Yes No
Binary Nominal Ordinal