Seminar Nasional Statistika IX Institut Teknologi Sepuluh Nopember, 7 November 2009
MODEL REGRESI LINEAR DALAM PRESPEKTIF MODEL LINEAR TERAMPAT1 Setiawan2 Jurusan Statistika FMIPA Institut Teknologi Sepuluh Nopember , Surabaya, Indonesia
[email protected]
ABSTRAK Secara umum, metode pendugaan parameter model regresi linear, yang meliputi linear klasik, linear dalam parameter, serta linear intrinsik adalah kuadrat terkecil dengan asumsi bahwa sebaran peubah respon normal. Sedangkan bila sebaran peubah respon tidak normal misal : binomial, poisson, binam negatif dan lain-lain, maka digunakan metode kemungkinan maksimum. Model linear terampat merampatkan (generalization) berbagai bentuk sebaran dari galat (peubah respon). Dengan demikian, model regresi linear merupakan salah satu kasus dari model linear terampat. Jenis sebaran peubah respon berakibat pada pemilihan fungsi penghubung. Kata kunci : model linear terampat, regresi linear, fungsi penghubung.
PENDAHULUAN Secara umum yang dimaksud dengan pemodelan (membangun model) adalah membuat suatu model yang dapat menggambarkan fenomena (real world). Apabila model dinyatakan dalam persamaan matematis yang menunjukkan hubungan antar peubah, maka dinamakan model matematis. Secara umum apabila y1, y2 …, yn merupakan realisasi dari peubah acak Y maka yi dapat diuraikan menjadi komponen sistematik (terkendali) dan komponen acak (tak terkendali).
yi atau :
komponen sistematik + komponen acak
yi
yi dan
dengan :
(1)
i
i
merupakan komponen acak, sedangkan
p
xj
j
Xβ adalah komponen sistematik
j 1
1
Disampaikan pada Seminar Nasional Statistika IX Jurusan Statistika FMIPA-ITS, 07 Nopember 2009 2 Staf Pengajar pada Jurusan Statistika FMIPA-ITS Surabaya
1
MODEL REGRESI LINEAR Regresi merupakan suatu model yang menunjukkan hubungan matematis antara satu peubah respon (Y) dengan satu atau lebih peubah prediktor (X), dan disebut model regresi linear bila modelnya berupa persamaan garis lurus. Dalam notasi matematis, model regresi linear adalah :
yi
x
0
x
1 1i
...
2 2i
x
2 pi
i
; i 1,2,...,n
(2)
Metode pendugaan yang paling populer adalah kuadrat terkecil yang mengasumsikan bahwa
yi ~ N( , 2 )
i
~ N(0, 2 )
selain itu peubah prediktor X1, X2, …, Xp, berskala kontinu. Pengertian linear ada dua macam, yaitu : a) Linear dalam parameter, yang dapat didekati dengan teknik-teknik regresi berganda, termasuk model-model polinomial. b) Tak linear dalam parameter atau disebut juga linear intrinsik, yaitu bila dengan cara transformasi dapat membuat menjadi linear, termasuk disini adalah model
-model
log dan eksponensial. Sedangkan model yang tidak dapat dilinearkan melalui transformasi dikatakan tidak linear intrinsik atau disebut model non-linear. Tabel 1. Beberapa Model Regresi Linear Intrinsik Polinomial
Eksponensial
eE(Y)
Linear
Y
0
1
0
1
E(Y) X
2
E(Y) 0
1
1
E(Y)
0
1
ln X
X
2
X 0 1
ln E(Y)
0
1
X
X
ln E(Y)
0
1
ln X
X2
Kubik
Y
X
X
Kuadratik :
Y
0
Logaritma
X2
3
0
1
X3
Selain model tersebut, terdapat pula model-model regresi dengan sebaran peubah respon tidak normal, misalnya binomial, poisson dan lain-lain. Suatu model regresi dengan sebaran peubah respon binomial disebut regresi logistik, sedangkan bila sebaran peubah respon poisson, maka disebut regresi poisson.
2
MODEL LINEAR TERAMPAT Model Linear Terampat (Generalized Linear Model) merupakan pengembangan dari model linear klasik. Secara umum, model linear terampat merupakan model statistika yang terdiri atas tiga komponen, yaitu : 1. Fungsi sebaran peluang komponen acak Y, f(y), yang termasuk dalam keluarga eksponensial. 2. Komponen sistematik yang dinyatakan dalam bentuk kombinasi linear
x
0
x
1 1i
2 2i
...
x yang disebut prediktor linear
2 pi
yang didefinisikan
sebagai berikut : p
xj
j
j 1
x
0
1 1i
x
2 2i
...
x
2 pi
3. Fungsi penghubung (link function), g(.), yang menggambarkan hubungan prediktor linear
dengan
antara
. Hubungan ini dapat ditulis sebagai berikut :
g( ) Komponen Acak Dalam model linear terampat komponen acak Y mempunyai sebaran keluarga eksponensial, misalnya : normal, binomial, multinomial, Poisson, binomial negatif, geometrik, gamma dan lain-lain, dengan bentuk sebagai berikut :
fY (y; , ) exp
y
b( ) c(y, ) a( )
(3)
dengan a(.), b(.), c(.) merupakan fungsi khusus,
adalah parameter kanonik, serta
adalah parameter dispersi. Jika dalam model hanya terdapat satu peubah respon Y, maka disebut peubah tunggal (univariate), sedangkan bila lebih dari satu disebut multirespon atau peubah ganda (multivariate). Komponen Sistematik Kovariate
X1, X2 ,...,X p dapat berupa pengukuran kontinu, kualitatif, atau gabungan
keduanya. Suatu model dengan hanya kovariat kontinu seringkali disebut model regresi, sedangkan bila kovariat kualitatif disebut model sidik ragam (ANOVA).
3
Bila kovariat merupakan campuran antara kontinu dan kualitatif, maka bisa didekati dengan model regresi dengan peubah dummi atau dengan pendekatan analisis peragam. Dengan demikian kombinasi antara komponen acak dengan komponen sistematik terdapat beberapa kemungkinan model Tabel 2. Macam-macam model linear Jenis Peubah
Jenis Kovariat
Nama Model
Respon Y a. Peubah Tunggal 1. Kontinu
Kontinu
Regresi Klasik
2. Kontinu
Kualitatif
Analisis Ragam (ANOVA)
3. Kontinu
Campuran
- Regresi dengan peubah dummy - Analisis Peragam (ANCOVA)
4. Diskret
Kontinu/
- Regresi logistik, bila sebaran Y binomial
Diskret
- Regresi Poisson, bila sebaran Y Poisson - Regresi Binom Negatif, bila sebaran Y binomial negatif - Dan lain-lain tergantung sebaran dari Y
b. Peubah Ganda 1. Kontinu
Kontinu
- Regresi Peubah Ganda - Seemingly Unrelated Unregression
2. Kontinu
Diskret
3. Kontinu
Campuran
Analisis Ragam Peubah ganda (MANOVA) - Regresi Peubah Ganda - Analisis Peragam Peubah Ganda
4. Diskret
Kontinu/
- Regresi Logistik Multivariat
Diskret
- Regresi Poisson Multivariat
Fungsi Penghubung Fungsi penghubung dapat dicari berdasarkan bentuk fungsi sebaran peubah respon, dengan cara dibawa menjadi bentuk keluarga eksponensial sesuai dengan persamaan 3. Dengan demikian, jenis fungsi penghubung tergantung dari sebaran peubah respon. Fungsi penghubung kanonik lebih sederhana dari non-kanonik. Beberapa fungsi penghubung kanonik yang sering digunakan diantaranya adalah : Identitas
:
g( )
4
Logit
:
g( ) log( /(1
Probit
:
g( )
Log
:
g( ) log( )
1
))
( ) , dengan
adalah sebaran kumulatif normal baku
g( ) log( log(1
Complementary log-log :
))
REGRESI LINEAR, LOGISTIK, SERTA POISSON DALAM KONTEKS MODEL LINEAR TERAMPAT 1. Regresi Linear Pada
model
linear
p
yi
klasik
xj
dengan
i
j
Xβ serta
j 1
yi ~ N( , 2 ) , maka fungsi peluang adalah sebagai berikut : 1 2
fY ( y; , )
exp
2
(y 2
( y )2 exp 2 2 2
(4)
/ 2) 1 y2 log(2 2 2
dengan parameter kanonik
2
)
(5)
dan parameter disperse
2
.
Dengan demikian regresi linear klasik dapat dipandang sebagai model linear terampat p
xj
dengan fungsi penghubung
j
Xβ atau disebut fungsi penghubung identitas.
j 1
Regresi Polinomial ( linear dalam parameter ) Model umum ( derajat dua dengan dua peubah bebas Z1 dan Z2 ) :
yi
0
z
2 3 1i
z
1 1i
2 4 2i
z
2 2i
z
zz
5 1i 2i
i
(6)
Model ini dapat dibawa menjadi model linear klasik dengan cara transformasi sebagai berikut :
yi
0
X1 Z1, X2 Z2, X3 Z12, X4 Z22, X5 Z1Z2 sehingga model menjadi : x
x
1 1i
2 2i
...
x
5 5i
i
; i 1,2,...,n
(7)
Jika sebaran Y normal, maka model ini merupakan salah satu kasus khusus dalam model linear terampat dengan fungsi penghubung identitas. Model-model Linear Intrinsik a.Model Cobb-Douglas
Y*
* 1 0 1
Z Z2 2 ...Z p p
logY* log
* 0
1
*
logZ1 ...
p
logZp log
5
*
dengantransformasi: Y
logY*;
log 0*; X1 logZ1;...;X p logZp serta
0
log * ,
maka model dapat dibawa ke model linear menjadi sebagai berikut :
yi
x
0
x
1 1i
2 2i
...
x
p pi
i
; i 1,2,...,n
(8)
Sehingga jika Y atau log Y* mempunyai sebaran normal, maka model Cobb-Duglas dapat dipandang sebagai model linear terampat dengan fungsi penghubung identitas. b.Model Eksponensial
yi* exp( 0 log yi*
x
x
1 1i
2 2i
x
0
x
1 1i
2 2i
dengan transformasi
... ...
x
p pi
i
x
p pi
) ; i 1,2,...,n
; i 1,2,...,n
i
(9) (10)
Y logY * maka model dapat dibawa ke model linear menjadi sebagai
berikut :
yi
x
0
x
1 1i
2 2i
...
x
p pi
i
; i 1,2,...,n
(11)
Jika sebaran dari Y atau log Y* normal, maka model eksponensial dapat dipandang sebagai model linear terampat dengan fungsi penghubung log. Dengan kata lain, regresi linear yang meliputi : linear klasik, linear dalam parameter (polinomial), linear intrinsik merupakan salah satu bentuk khusus dalam model linear terampat dengan fungsi penghubung identitas. 2.Regresi Logistik Jika peubah respon Y mempunyai sebaran binomial, maka fungsi peluang adalah sebagai berikut :
P(ri , , xi )
exp log
ni [P(xi )]ri [1 P(xi )]ni ri ; ri 0,1,2,...,ni ri
(12)
ri logP(xi ) (ni ri )log(1 P(xi ))
(13)
ni ri
Fungsi peluang tersebut merupakan keluarga eksponensial dengan :
a( ) 1 i
logP(xi ) log(1 P(xi ))
b( i )
ni log(1 P(xi )))
c( y, ) log
ni log
e
i
1 e
i
ni ri
6
Dengan demikian regresi logistik dapat dipandang sebagai salah satu bentuk khusus dari model linear terampat dengan fungsi penghubung
g( ) log( /(1
))
3.Regresi Poisson Suatu model regresi dengan peubah respon mempunyai sebaran Poisson, maka fungsi peluang adalah sebagai berikut :
eti
P( yi , )
( xi , )
ti (xi , ) yi yi !
exp ti [ (xi , )] yi logti (xi , ) log(yi )! Fungsi peluang ini merupakan keluarga eksponensial dengan :
a( ) 1;
i
logti [ (xi , )];b( i ) ti [ (xi , )] e i ;c(y, )
log(yi )!
Dengan demikian regresi Poisson dapat dipandang sebagai salah satu bentuk khusus
g( ) log( ) X
dari model linear terampat dengan fungsi penghubung BEBERAPA CONTOH KASUS Kasus 1 : Model Linear Klasik
Y
0
1
X
.
Terdapat pasangan data X dan Y dari hasil pengamatan. Dengan mengasumsikan sebaran y normal, dilakukan pendugan model (parameter regresi) dengan dua metode, yaitu metode kuadrat terkecil serta model linear terampat ( prosedur GENMOD ). Hasil pendugaan dengan metode kuadrat terkecil adalah sebagai berikut : Program data log; input x y; cards; 0 4.5 1 5.5 2 6.5 3 8.0 4 10.0 5 12.0 6 15.5 7 17.5 ; proc reg data=log; model y=x run;
7
Hasil Keluaran komputer Dependent Variable: y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 151.43006 151.43006 156.96 <.0001 Error 6 5.78869 0.96478 Corrected Total 7 157.21875 Root MSE 0.98223 R-Square 0.9632 Dependent Mean 9.93750 Adj R-Sq 0.9570 Coeff Var 9.88411 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > ltl Intercept 1 3.29167 0.63403 5.19 0.0020 X 1 1.89881 0.15156 12.53 <.0001
Hasil pendugaan dengan prosedur GENMOD Program data log; input x y; cards; data ; proc genmod; model y=x/dist=normal link=identity; run;
Hasil keluaran komputer Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 6 5.7887 0.9648 Scaled Deviance 6 8.0000 1.3333 Pearson Chi-Square 6 5.7887 0.9648 Scaled Pearson X2 6 8.0000 1.3333 Log Likelihood -10.0574 Analysis Of Parameter Estimates Standard Wald 95% Confidence ChiParameter DF Estimate Error Limits Square Pr>ChiSq Intercept 1 3.2917 0.5491 2.2155 4.3679 35.94 <.0001 x 1 1.8988 0.1313 1.6416 2.1561 209.28 <.0001 Scale 1 0.8506 0.2127 0.5211 1.3885
Kasus 2 : Model linear Intrinsik 1 a. Model Cobb-Douglas Y 0X e Data pengamatan untuk pasangan dan tekanan (atm) dan volume (liter). Dengan
asumsi sebaran log Y (logtek) normal, dilakukan pendugaan model dengan dua metode, yaitu metode kuadrat terkecil serta model linear terampat (prosedur GENMOD ).
8
Hasil pendugaan dengan metode kuadrat terkecil adalah sebagai berikut : Program data cd; input volume tekanan; logvol=log(volume); logtek=log(tekanan); cards; 7.34 5.00 4.77 5.71 4.18 8.27 2.88 11.50 2.07 14.95 1.59 17.49 1.36 20.35 1.17 22.40 1.06 ; proc reg data=cd; model logtek=logvol; run;
Hasil keluaran computer
Source
Dependent Variable: logtek Analysis of Variance Sum of Mean DF Squares Square
F Value
Pr > F
Model 1 3.75890 3.75890` 4552579 <.0001 Error 7 0.00000578 8.256642E-7 Corrected Total 8 3.75891 Root MSE 0.00090866 R-Square 1.0000 Dependent Mean 0.86198 Adj R-Sq 1.0000 Coeff Var 0.10542
Variable
DF
Intercept Logvol
1 1
Parameter Estimated Parameter Standard Estimate Error 3.17524 -1.00219
t Value
0.00113 0.00046970
2820.73 -2133.7
Hasil pendugaan dengan prosedur GENMOD Program data cd; input volume tekanan; logvol=log(volume); logtek=log(tekanan); cards; data ; prog genmod; model logtek=logvol/dist=normal link=identity; run;
9
Pr > ltl <.0001 <.0001
Hasil keluaran komputer Criteria For Assessing Goodness Of Fit Criterion Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X2 Log Likelihood
DF 7 7 7 7
Value 0.0000 9.0000 0.0000 9.0000 51.3923
Value/DF 0.0000 1.2857 0.0000 1.2857
Parameter
DF
Analysis Of Parameter Estimates Standard Wald 95% Confidence ChiEstimate Error Limits Square
Intercept logvol Scale
1 1 1
3.1752 -1.0022 0.0008
0.0010 0.0004 0.0002
3.1733 -1.0030 0.0005
3.1772 -1.0014 0.0013
1.023E7 5853316
Pr>ChiSq <.0001 <.0001
b. Model Eksponensial Lihat kembali data pada kasus 1. Dengan asumsi sebaran logy normal , dilakukan pendugaan model dengan dua metode, yaitu metode kuadrat terkecil serta model linear terampat ( prosedur GENMOD ) Hasil pendugaan dengan metode kuadrat terkecil adalah sebagai berikut : Program data log; input x y; logy=log(y); cards; data ; proc reg data=log; model logy=x; run;
Hasil keluaran komputer Dependent Variable: logy Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 1.66997 1.66997 2347.62 <.0001 Error 6 0.00427 0.00071135 Corrected Total 7 1.67424 Root MSE 0.02667 R-Square 0.9975 Dependent Mean 2.19383 Adj R-Sq 0.9970 Coeff Var 1.21573 Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > ltl Intercept 1 1.49592 0.01722 86.89 <.0001 x 1 0.19940 0.00412 48.45 <.0001
10
Hasil pendugaan dengan prosedur GENMOD Program data log; input x y; cards; data ; proc genmod; model y=x/dist=normal link=log; run;
Hasil keluaran komputer Dependent Variable: logy Analysis of Variance Sum of Mean Source DF Squares Square Model 1 1.66997 1.66997 Error 6 0.00427 0.00071135 Corrected Total 7 1.67424 Root MSE 0.02667 R-Square Dependent Mean 2.19383 Adj R-Sq Coeff Var 1.21573
Parameter Estimates Parameter Standard Variable DF Estimate Error Intercept 1 1.49592 0.01722 x 1 0.19940 0.00412
t Value 86.89 48.45
F Value 2347.62
Pr > F <.0001
0.9975 0.9970
Pr > ltl <.0001 <.0001
Kasus 3 : Regresi Poisson Data hasil penelitian Hidayati (2001)tentang faktor-faktor yang mempengaruhi penyakit demam Typhoid di Jawa Timur. Faktor-faktor tersebut adalah : kepadatan peduduk (X1), persentase cakupan penduduk pemakai air bersih (X2), persentase cakupan penduduk pemakai jamban keluarga (X3), persentase perumahan yang memenuhi syarat (X4), persentase cakupan tempat pembuangan sampah sementara yang memenuhi syarat (X5), persentase tempat pengolahan makanan yang memenuhi syarat (X6), serta persentase cakupan penduduk pemakai sarana pembuangan air limbah (X7). Sedangkan peubah responnya adalah jumlah penderita penyakit demam Typhoid pada usia 1 tahun sampai 4 tahun di Jawa Timur (y). Dengan mengasumsikan sebaran y Poisson, pada makalah ini akan dilakukan pendugaan model dengan model linear terampat ( prosedur GENMOD ). Sedangkan pada penelitian Hidayati metode pendugaan yang digunakan adalah analisis regresi Poisson yang tersedia pada perangkat lunak S-PLUS.
11
Program data poisson; input no y x1 x2 x3 x4 x5 x6 x7; cards; data ; proc genmod; model y=x1 x2 x3 x4 x5 x6 x7/dist=poisson link=log; run; Hasil keluaran komputer Criteria For Assessing Goodness Of Fit Criterion DF Value Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X2 Log Likelihood
Parameter Intercept x1 x2 x3 x4 x5 x6 x7
Parameter Scale
29 29 29 29
1915.7104 1915.7104 2252.7736 2252.7736 19285.4208
Value/DF 66.0590 66.0590 77.6818 77.6818
Analysis Of Parameter Estimates Standard Wald 95% Confidence DF Estimate Error Limits 1 6.3757 0.1697 6.0431 6.7082 1 0.0004 0.0000 0.0004 0.0004 1 -0.0215 0.0018 -0.0250 -0.0181 1 0.0010 0.0019 -0.0027 0.0047 1 0.0010 0.0017 -0.0228 -0.0162 1 -0.0281 0.0008 -0.0296 -0.0265 1 0.0184 0.0014 0.0156 0.0213 1 0.0089 0.0015 0.0060 0.0119
DF 0
ChiSquare Pr>ChiSq 1411.78 <.0001 1714.58 <.0001 150.88 <.0001 0.26 0.6075 135.51 <.0001 1233.59 <.0001 162.11 <.0001 35.24 <.0001
Analysis Of Parameter Estimates Standard Wald 95% Confidence ChiEstimate Error Limits Square Pr>ChiSq 1.0000 0.0000 1.0000 1.0000
Kasus 4 : Regresi Logistik Kasus dari Lizards (Mc Cullagh dan Nelder, 1989) yaitu data tentang perilaku dua jenis Lizard ( grahami dan opalinus ) yang diamati di berbagai lokasi pada waktu siang hari. Peubah respon yang diamati adalah jumlah grahami (Gh) dan opalinus (Op), sedangkan peubah bebasnya adalah : (1) shade dengan dua kategori ( sun dan shade ), (2) Height (ketinggian) dengan dua kategori ( <5ft dan …5ft ), (3) Diam (diameter) dengan dua kategori ( ………….), serta (4) Time (waktu) dengan tiga kategori (early, mid-day, dan late ).
12
Dengan mengasumsikan sebaran y binomial, dilakukan pendugaan model metode model linear terampat ( prosedur GENMOD ). Program data lizards; input No Time Shade Diam Height Gh Op Total; cards; 1 2 1 1 1 20 2 22 2 2 1 1 0 13 0 13 dst 24 0 0 0 0 4 4 8 ; proc genmod; class Time Shade Diam Height; Model Gh/Total = Height Diam Shade Time / dist=binom link=logit; Run; Hasil keluaran komputer Criteria For Assessing Goodness Of Fit Criterion DF Value Value/DF Deviance 17 14.2046 0.8356 Scaled Deviance 17 14.2046 0.8356 Pearson Chi-Square 17 12.5894 0.7406 Scaled Pearson X2 17 12.5894 0.7406 Log Likelihood -280.1129
Parameter Intercept Height 0 Height 1 Diam 0 Diam 1 Shade 0 Shade 1 Time 0 Time 1 Time 2 Scale
DF 1 1 0 1 0 1 0 1 1 0 0
Analysis Of Parameter Estimates Standard Wald 95% Confidence ChiEstimate Error Limits Square Pr>ChiSq 1.9447 1.1300 0.0000 -0.7626 0.0000 -0.8473 0.0000 -0.7368 0.2271 0.0000 1.0000
0.3415 0.2571 0.0000 0.2113 0.0000 0.3224 0.0000 0.2990 0.2502 0.0000 0.0000
1.2754 0.6261 0.0000 -1.1767 0.0000 -0.04791 0.0000 -1.3228 -0.2632 0.0000 1.0000
2.6140 1.6339 0.0000 -0.3486 0.0000 -0.02154 0.0000 -0.1508 0.7174 0.0000 1.0000
32.43 <.0001 19.32 <.0001 13.03
0.0003
6.91
0.0086
6.07 0.82
0.0137 0.3640
KESIMPULAN Model Linear terampat merupakan pengembangan dari model linear klasik yang merampatkan model linear klasik. Dengan demikian model regresi linear merupakan salah satu kasus khusus dalam model linear terampat.
13
DAFTAR PUSTAKA Hidayati, N. 2001. Analisa Regresi Poisson terhadap Faktor-faktor yang Mempengaruhi Penyakit Demam Typhoid di Propinsi Jawa Timur, TA D3-Statistika FMIPA ITS. McCullag, P. dan J.A. Nelder. 1989. Generalized Linear Models. Chapman & Hall. London. Myers, R. H. 1990. Classical and Modern Regression with Application. PWS-KENT Publishing Company, Boston.
14