Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
(M.9) PEMODELAN MELEK HURUF DAN RATA-RATA LAMA STUDI DENGAN PENDEKATAN MODEL BINER BIVARIAT 1
1
2
Vita Ratnasari , 2Purhadi, 2Ismaini, 2Suhartono
Mahasiswa S3 Jurusan Statistika FMIPA-ITS Surabaya 1 e-mail :
[email protected] Staf Pengajar Jurusan Statistika FMIPA-ITS Surabaya
Dalam penelitian, seringkali variabel respon menggunakan data kategorikal. Ada kalanya, jumlah variabel respon yang dipengaruhi oleh variabel-variabel prediktor, tidak hanya berjumlah sebuah variabel respon saja, melainkan lebih dari satu. Salah satu model yang mengatasi permasalahan tersebut adalah model probit. Pada paper ini akan mengkaji suatu kasus dengan mempertimbangkan jumlah variabel respon kategorikal. Metode estimasi yang digunakan adalah metode Maximum Likelihood Estimation (MLE) dan metode iterasinya adalah Newton Raphson. Sedangkan uji signifikansinya menggunakan metode Maximum Likelihood Ratio Test (MLRT). Kasus yang digunakan pada paper ini tentang Indeks Pembangunan Manusia (IPM) / Human Development Index (HDI). IPM adalah pengukuran terhadap tiga indeks, yaitu indeks kesehatan, indeks pendidikan dan indeks daya beli masyarakat. Dari hasil estimasi dan uji signifikansi akan diketahui faktor-faktor yang mempengaruhi IPM pendidikan, dimana IPM pendidikan mempunyai dua indikator, yaitu melek huruf dan rata-rata lama studi. Variabel prediktor yang diduga mempengaruhi adalah Persentase penduduk yang tinggal di daerah perkotaan, Persentase penduduk yang berpendidikan diatas SLTP, Rata-rata pendapatan perkapita, Rasio ketergantungan penduduk, Persentase peranan masyarakat di sektor industri dalam PDRB dan Persentase penduduk miskin. Kata kunci: Bivariat, Maximum Likelihood Estimation, Newton Raphson, Maximum Likelihood Ratio Test, Indeks Pembangunan Manusia,
PENDAHULUAN Salah satu model yang dapat digunakan untuk menjelaskan hubungan antara variabel respon kategorikal (diskrit) dengan variabel prediktor kontinu, diskrit atau campuran diantara keduanya adalah model probit. Probit pertama kali dikembangkan oleh Bliss (1934). Bliss (1934) menjelaskan bahwa istilah “probit” adalah singkatan dari “probability unit”. Beberapa penelitian sebelumnya yang mengkaji pemodelan probit antara lain oleh Aitchison dan Silvey (1957), McKelvey dan Zavoina (1975), Snapinn dan Small (1986), Ronning dan Kukuk (1996), O’Donnell dan Connor (1996) dan Kockelman dan Kweon (2002). Beberapa peneliti tersebut menerapkan model probit dengan menggunakan satu variabel respon. 176
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
Seringkali kondisi lapangan menunjukkan bahwa beberapa variabel prediktor tidak hanya mempengaruhi sebuah variabel respon saja. Misalnya pada kasus Indeks Pembangunan Manusia (IPM), IPM terdiri dari tiga dimensi yaitu kesehatan, pendidikan dan daya beli masyarakat. Sehingga variabel respon untuk kasus tersebut adalah tiga variabel. Menurut Diana (2009), IPM dipengaruhi oleh Persentase penduduk yang tinggal di daerah perkotaan, Persentase penduduk yang berpendidikan diatas SLTP, Rata-rata pendapatan perkapita, Rasio ketergantungan penduduk, Persentase peranan masyarakat di sektor industri dalam PDRB dan Persentase penduduk miskin. Estimasi yang digunakan untuk pemodelan probit adalah metode maximum likelihood estimator (MLE) dan statistik ujinya dengan menggunakan metode maximum likelihood ratio test (MLRT).
MODEL PROBIT BINER BIVARIAT Green (2008), model probit bivariat adalah pengembangan dari model probit univariat. Spesifikasi secara umum untuk model tersebut adalah: y1* = β1T x1 + ε1 , jika y1* ≤ 0 maka y1 = 0 y1* > 0 y2* = βT2 x 2 + ε 2 ,
maka y1 = 1
(1)
jika y2* ≤ 0 maka y2 = 0 y2* > 0
maka y2 = 1
(2)
E ε1 x1 , x 2 = E ε 2 x1 , x 2 = 0 Var ε1 x1 , x 2 = Var ε 2 x1 , x 2 = 1 Cov ε1 , ε 2 x1 , x 2 = ρ
Estimasi yang digunakan pada model probit bivariat adalah maksimum likelihood. Model probit biner bivariat mempertimbangkan dua variabel dependen ( y1 dan y2 ), dan mengasumsikan dua variabel random error ε1 dan ε 2 saling berkorelasi ρ . Probabilitas distribusi bivariat adalah: z2 z1
P( Z1 < z1 , Z 2 < z2 ) =
∫ ∫ φ ( z1, z2 , ρ ) d z1 d z2 = Φ( z1 , z2 ) − Φ( z1 )
(3)
−∞ −∞
dimana φ (⋅) adalah fungsi densitas dan Φ (⋅) adalah fungsi distribusi kumulatif normal bivariat. Fungsi densitasnya adalah: φ ( z1 , z2 , ρ ) =
1 1 z12 − 2 ρ z1 z2 + z22 exp − 2 1 − ρ 2 2π 1 − ρ 2 1
(4)
PENAKSIRAN PARAMETER MODEL PROBIT BINER BIVARIAT
177
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
Menurut Gujarati (2003) dan Green (2008) parameter yang terdapat pada model probit dapat diduga dengan menggunakan metode kemungkinan maksimum (Maximum Likelihood Estimation / MLE). Untuk mendapatkan penaksir β dengan menggunakan metode MLE adalah dengan langkah-langkah sebagai berikut: 1. Mengambil n sampel random
(Y11i , Y10i , Y01i , Y00i , X 1i , X 2i ,L , X ki )
i = 1, 2,..., n
Tabel 1: Struktur Data Biner Bivariat I 1 2 3
Y11i
Y10i
Y01i
Y00i
X1
X2
L
Xk
1 0 0
0 0 0
0 0 1
0 1 0
x11
x21
L
xk1
x12
x12
L
xk 2
x13
x13
L
xk 3
M
M
M
M
M
0
1
0
0
M x2n
L
N
M x1n
M xkn
L
Tabel 1 menunjukkan struktur data biner bivariat, yang mana kejadian pada setiap res-ponden akan berdistribusi Multinomial (Y11 , Y10 , Y01 ) ~ M (1; P11 , P10 , P01 ) . Y00 dan P00 secara berturut adalah dan P00 = 1 − P11 − P10 − P01 serta nilai y11 , y10 , y01 , y00 adalah 0 atau 1. Bentuk distribusi peluangnya adalah: Y00 = 1 − Y11 − Y10 − Y01
f ( y11 , y10 , y01 , P11 , P10 , P01 ) = P11y11 P10y10 P01y01 P00y00
2. Membentuk fungsi likelihood Pada data biner bivariat, dengan mengambil n sampel random yang saling bebas, maka variabel random bivariat akan berdistribusi multinomial dengan nilai setiap selnya adalah Y11i , Y10i , Y01i dan Y00i dengan i = 1, 2,K , n serta nilai peluangnya adalah P11i , P10i , P01i dan P00i . Sehingga fungsi likelihood dari variabel random biner bivariat sebagai berikut: n
L ( β ) = ∏ P11i y11i P10 i y10 i P01i y01i (1 − P11 − P10 − P01 ) 1− y11 − y10 − y01
(5)
i =1
3. Membuat ln fungsi likelihood, fungsi ln likelihood tersebut adalah:
n ln L ( β ) = ln ∏ P11i y11i P10i y10i P01i y01i (1 − P11 − P10 − P01 ) 1− y11 − y10 − y01 i =1
(6)
4. Kemudian memaksimumkan fungsi ln likelihood dengan menderivatifkan ln fungsi likelihood terhadap parameter-parameternya dan kemudian menyamakan dengan nol. Maka turunan pertama ln(β ) terhadap β1 adalah: 178
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010 ∂ ln L ( ⋅) T 1
∂β
n ∂P = ∑ (− a y11i + b y10i + c y01i − d y00i ) 01Ti i =1 ∂ β1
∂ P1i + (b y10i − d y00i ) T ∂ β1
(7)
Sedangkan turunan pertama ln(β ) terhadap β 2 adalah: ∂ ln L ( ⋅) ∂β
T 2
n ∂P = ∑ (a y11i − b y10i ) 2Ti i =1 ∂ β2
∂ P01i + ( − a y11i + b y10i + c y01i − d y00i ) T ∂ β2
(8)
Misal: 1 1 1 1 a= , b = c= , dan d = 1 − P − P 1i 01i P2i − P01i P1i − P2i + P01i P01i Karena diperoleh hasil taksiran yang tidak close form, maka salah satu pendekatan numerik yang dapat digunakan adalah metode Newton-Raphson. Melalui proses iterasi Newton-Raphson dapat
diperoleh penaksir maksimum likelihood bagi β , dimana β ( m ) adalah penaksiran parameter pada iterasi ke m. Algoritma proses iterasi Newton-Raphson untuk mencari suatu penaksir bagi β , terlebih dahulu menentukan vektor g , yang merupakan turunan pertama dari fungsi likelihood terhadap parameternya. Kemudian menentukan matriks H , yang elemen-elemennya merupakan turunan kedua terhadap parameternya. Komponen vektor g yang berukuran (2 × 1) adalah: ∂ ln L(β) ∂ βT 1 g (β) = ∂ ln L(β) ∂ βT 2 [2( p +1)×1]
(9)
Kemudian membentuk matrik Hessian atau matrik H (β) , matrik ini diperoleh dari turunan parsial kedua ln L (⋅) terhadap β . Sehingga, didapatkan matrik simetris Hessian adalah sebagai berikut: ∂ 2 ln L(β) T ∂β ∂β H (β) = 1 1
∂ 2 ln L(β) ∂β1 ∂βT2 ∂ 2 ln L(β) ∂β 2 ∂βT2 [2( p +1) ×2( p +1)]
(10)
PENGUJIAN SIGNIFIKANSI MODEL PROBIT BINER BIVARIAT Untuk menguji kelayakan model yang diperoleh dari penaksiran parameter, dilakukan pengujian parameter model probit biner bivariat. Hal ini bertujuan untuk mengetahui apakah variabel prediktor yang terdapat dalam model berpengaruh nyata atau tidak. Dalam pengujian 179
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
parameter model dilakukan baik secara overall (serentak) maupun parsial. Metode yang digunakan adalah MLRT. Hipotesa untuk menguji secara serentak, apakah variabel x1 , x2 ,..., x p mempunyai pengaruh yang signifikan terhadap variabel respon y1 dan y2 , adalah: H 0 : β11 = β12 = L = β1 p = β 21 = β 22 = L = β 2 p = 0 H1 : paling sedikit ada satu β rs ≠ 0
dengan r = 1, 2 dan s = 1, 2,..., p
(11)
Statistik uji yang digunakan adalah G 2 . L (ωˆ ) ˆ ) − 2 ln L(ωˆ ) G 2 = −2 ln Λ = −2 ln = 2 ln L(Ω ˆ L(Ω)
(12)
Distribusi G 2 mendekati distribusi χ 2 (Agresti, 2002). Keputusan untuk menolak H0 jika 2 Ghitung > χα2 ,v ,
dimana v adalah banyaknya parameter model dibawah populasi dikurangi
banyaknya parameter model dibawah H0. Kemudian nilai χv2,α dapat diperoleh pada tabel Chi-
Square. Setelah melakukan pengujian secara serentak, langkah selanjutnya adalah pengujian secara parsial. Pada pengujian ini, ingin diketahui kontribusi setiap variabel prediktor. Pengujian hipotesis secara parsial pada model probit biner bivariat adalah: H0 : β rs = 0 (13) H1 : β rs ≠ 0 dengan r = 1, 2 dan s = 0,1, 2,..., p Untuk menentukan statistik uji pada uji parsial dilakukan cara yang sama seperti uji serentak, βˆrs sehingga didapatkan statistik uji t , yaitu thitung = . (14) SE ( βˆrs )
SE ( βˆrs ) = Var ( βˆrs ) ,
dimana Var ( βˆrs ) adalah elemen diagonal dari matrik Informasi,
I = − E ( H −1 ) . Keputusan untuk menolak H0 jika thitung > t(1;α ) .
APLIKASI MODEL PROBIT BINER BIVARIAT Indeks Pembangunan Manusia (IPM) / Human Development Index (HDI) adalah pengukuran perbandingan dari kesehatan, pendidikan dan daya beli masyarakat. Paper ini memberikan studi kasus nilai IPM yang ditinjau dari sisi pendidikannya. Pendidikan mempunyai dua indikator yaitu melek huruf (y1) dan lamanya studi (y2). Dan variabel prediktor yang diduga mempengaruhi variabel respon adalah Persentase penduduk yang tinggal di daerah perkotaan (x1), Persentase penduduk yang berpendidikan diatas SLTP (x2), Rata-rata pendapatan perkapita (x3), Rasio ketergantungan penduduk (x4), Persentase peranan masyarakat di sektor industri
180
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
dalam PDRB (x5) dan Persentase penduduk miskin (x6). Secara lengkap data dapat dilihat pada Tabel 2. Tabel 2: Data variabel respon dan variabel prediktor Kab X1 X2 X3 X4 X5 X6 Y1 Y2 / kota 1 12.9 35.1 195.1 0.5 23.3 0 4 7 6 5 4.18 1 1 2 25.7 37.0 233.7 0.4 18.2 0 2 3 6 8 9.67 3 0 3 24.2 32.8 224.9 0.5 22.7 2 4 3 3 8.47 9 1 0 4 43.0 41.4 253.3 0.5 18.0 17.8 1 8 1 4 2 7 3 1 5 25.4 34.9 276.4 0.5 16.4 0 0 1 5 5 2.45 7 0 6 39.2 42.6 231.1 0.5 16.1 18.9 1 2 8 4 2 2 8 1 7 40.7 35.0 259.4 0.5 19.6 15.6 0 5 7 5 2 5 6 0 : : : : : : : : : 36.0 278.6 0.5 12.0 99 37.5 7.86 1 1 1 1 4 5
P11
P10
P01
P00
0.230 6 0.076 7 0.068 3 0.327 9 0.042 9 0.491 3 0.230 6
0.626 4 0.574 5 0.568 1 0.561 5 0.523 4 0.455 2 0.626 4
0.000 2 0.000 2 0.000 2 0.000 5 0.000 1 0.000 4 0.000 3
0.142 8 0.348 5 0.363 4 0.110 0 0.433 5 0.053 1 0.142 7
0.092 85
0.494 4
0.000 8
0.412 0
Rata-rata persentase penduduk Jawa yang tinggal di perkotaan relatif kurang dari 50 %, yaitu 46.70 %. Hal ini menunjukkan bahwa 53.3 % penduduk Jawa tinggal di luar perkotaan. Masyarakat di Jawa berpendidikan diatas SLTP relatif sedikit yaitu sebesar 38.44 %. Sedangkan peranan masyarakat di sektor industri dalam PDRB hanya 21.4 %. Jika dilihat lebih jauh, peranan masyarakat di sektor industri Jawa Barat (29.24 %) mempunyai prosentase lebih besar dibanding di Jawa Timur (15.99 %). Dilihat dari persentase penduduk miskin, Jawa Barat mempunyai persentase paling kecil dibanding Jawa Timur dan Jawa Tengah, yaitu sebesar 12.84 %, Jawa Timur dan Jawa Tengah secara berturut adalah 19.64 % dan 19.31 %. Hubungan antara penduduk yang melek huruf dengan berpendidikan diatas SLTP sebesar 0.783. dengan adanya korelasi yang kuat diantara dua variabel respon, maka model yang dibentuk adalah model bivariat. Persamaan pertama pada model probit bivariat tersebut adalah: z1 = −9.0428 − 0.00588 x1 + 0.1666 x 2 − 0.00416 x3 + 6.60444 x 4 + 0.00596 x5 + 0.0635 x6
181
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
Dengan nilai peluang bahwa sebuah kota/kabupaten termasuk kategori nilai IPM melek huruf P11 = 1 − Φ (− z1 ) . dibawah rata-rata adalah P01 = Φ(− z1 ) , sedangkan diatas rata-rata adalah Sedangkan persamaan kedua adalah: z2 = −11.855 − 0.0023x1 + 0.1862 x 2 − 0.0048 x3 + 6.9124 x 4 + 0.0063x5 + 0.07337 x6 .
Peluang
sebuah kota/kabupaten termasuk kategori nilai IPM lama studi dibawah rata-rata adalah P02 = Φ (− z2 ) dan diatas rata-rata adalah P12 = 1 − Φ(− z2 ) . Dari uji secara serentak menunjukkan bahwa model tidak signifikan, dengan nilai G 2 mendekati nol. Hipotesis untuk uji serentak mengacu pada persamaan (16). Sedangkan uji secara parsial menunjukkan bahwa ke enam variabel prediktor diatas, secara langsung tidak signifikan berpengaruh terhadap variabel melek huruf dan variabel lama studi. Nilai t hitung ke enam variabel prediktor dibawah 1.28 (α = 0.10) . Dimana hipotesis untuk uji secara parsial
ACTUAL
menggunakan persamaan (20). Ketidak signifikan variabel prediktor antara lain disebabkan pengelompokkan yang tidak signifikan. Hal ini terlihat pada prediksi pengelompokkan untuk variabel respon terjadi misklasifikasi sebesar 48.5 %. Lebih detailnya dapat dilihat pada Tabel 3. Tabel 3: Misklasifikasi pemodelan probit biner bivariat PREDIKSI P11 P10 P01 P00 P11 18 17 0 5 P10 2 15 0 5 P01 1 3 0 10 P00 0 5 0 18
KESIMPULAN DAN SARAN Dari keenam variabel prediktor [Persentase penduduk yang tinggal di daerah perkotaan (x1), Persentase penduduk yang berpendidikan diatas SLTP (x2), Rata-rata pendapatan perkapita (x3), Rasio ketergantungan penduduk (x4), Persentase peranan sektor industri dalam PDRB (x5) dan Persentase penduduk miskin (x6)], menunjukkan bahwa tidak signifikan terhadap nilai IPM melek huruf maupun nilai IPM lamanya studi. Dengan misklasifikasi yang relatif besar, yaitu sebesar 48.5 %. Disarankan dalam penelitian lanjutan adalah memodifikasi variabel yang telah ada, atau menambah variabel lain. DAFTAR PUSTAKA Agresti, A. (2002), Categorical Data Analysis, John Wiley & Sons, Inc., Hoboken, New Jersey.
182
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
Aitchison, J. & Silvey, S.D. (1957). The Generalization of Probit Analysis to the Case of Multiple Responses. Biometrika: Vol. 44: No. 2: 131-140. Bliss, C.I. (1934). The Method of Probits. American Association for the Advancement of Science: Science, New Series, Vol.79 (2037): 38–39. Greene, W.H. (2008), Econometrics Analysis, Fourth Edition, Prentice Hall, Englewood Cliffs, New Jersey. Gujarati, D.N. (2003). Basic Econometric. Fourth Edition. Mc Graw Hill, New York. McKelvey, R.D. & Zavoina, W. (1975). A Statistical Model for the Analysis of Ordinal Level Dependent Variables. Journal of Mathematical Sociology, Vol. 4: 103-120. Ronning, G. & Kukuk, M. (1996). Efficient Estimation of Ordered Probit Models. Journal of the American Statistical Association: Vol. 91, No. 435, pp. 1120-1129. Snapinn, S.M. & Small, R.D. (1986). Test of Significance Using Regression Models for Ordered Categorical Data. Biometrics: Vol. 42: 583-592.
183