ANALISIS REGRESI
Analisis memodelkan
regresi
adalah
hubungan
analisis
antara
statistika
variabel
yang
independent
bertujuan dengan
untuk
variabel
dependent. Istilah regresi pertamakali dikenalkan oleh Francis Galton (1886) melalui artikelnya yang berjudul Regression Towards Mediocrity In Hereditary Stature, di dalam artikel ini Galton mengkaji hubungan antara tinggi badan anak dengan tinggi badan orang tua. Dari hasil kajian ini diperoleh informasi adanya hubungan antara tinggi badan anak dengan tinggi orang-tuanya. Model yang menggambarkan hubungan antara variabel independent (X) dengan variabel dependent (Y) adalah : Y= f(X,) +
1
Hubungan antara variabel independent dengan variabel dependent dikatakan linear jika dapat dinyatakan dalam model : Y = X1 + X2 +…+pXp + Dalam catatan matriks, model regresi linear dapat ditulis dalam : Y =X atau 1 X 11 ... X p1 0 Y1 1 1 X 21 ... X 2 p 1 2 Y2 ... ... ... ... ... ... 1 X n1 X np p Yn n Nilai dapat ditaksir dengan menggunakan metode kuadrat terkecil dengan cara : ˆ( X ' X ) 1 ( X ' Y )
ˆ n 0 ˆ 2 x1 ˆ ( X ' X ) ... ... ˆ x p[ p
x x
...
1 2 1
x x 1
...
p
x x x
y x1 y 1 p ( X 'Y ) ... x 2p x p y p
Pengujian terhadap dapat dilakukan dengan dua cara yaitu pengujian secara serentak dan pengujian secara individu. Pengujian secera serentak Hipotesis : H0 : H1 :
2
Statistik Uji df
Sumber
Sum
of MS
F
Squares
Variasi Regresi
p
(YˆY )
Residual
n-p-1
(Y Yˆ)
Total
n-1
(Y Y )
(YˆY )
2
2
/p
MS . Re gresi MS . Re sidual
(Y Yˆ) /(n p 1)
2
2
2
Tolak Ho jika F>F,p,n-p-1 Pengujian secara individu Hipotesis H0 : I = 0 H1 : I 0 Statistik uji
ˆ t i s ˆ i
Tolak H0 jika |t|>tn-p-1 Kegiatan Praktikum Tentukan model yang menggambarkan hubungan antara harapan hidup perempuan (Y) dengan pendapatan per-kapita dan kepadatan penduduk yang dinyatakan dalam : Y = ln(gdp_cap) + ln(density) + Penyelesaian : a. Melakukan transformasi ln(gdp_cap) dan ln(density) dengan cara : [klik transform+ compute]
3
4
b. Melakukan analisis regresi ;[klik+analyze+regression+linear]
dan hasilnya adalah : Model Summary Model 1
R .840a
R Square .706
Adjusted R Square .700
Std. Error of the Estimate 5.788
a. Predictors: (Constant), ln_gdp, ln_dens
ANOVAb Model 1
Regression Residual Total
Sum of Squares 8519.080 3551.268 12070.349
df 2 106 108
Mean Square 4259.540 33.503
a. Predictors: (Constant), ln_gdp, ln_dens b. Dependent Variable: Average female life expectancy
5
F 127.141
Sig. .000a
Coefficientsa
Model 1
(Constant) ln_dens ln_gdp
Unstandardized Coefficients B Std. Error 17.981 3.501 .904 .388 6.150 .390
Standardized Coefficients Beta .123 .831
t 5.136 2.332 15.766
Sig. .000 .022 .000
a. Dependent Variable: Average female life expectancy
Seluruh nilai sig.<5% sehingga harapan hidup perempuan dipengaruhi (Y) oleh kepadatan penduduk dan pendapatan per-kapita yang dinyatakan dalam model : Y= 17.981 +0.904 ln(density) +6.150 ln(gdp_cap)
6
PEMILIHAN MODEL TERBAIK Salah satu tujuan di dalam analisis regresi adalah untuk mendapatkan model terbaik yang menjelaskan hubungan antara variabel independent dengan variabel dependent, model terbaik adalah model yang seluruh koefisien regresinya berarti (significant) dan mempunyai kriteria model terbaik optimum. Beberapa kriteria model terbaik adalah :
Nomor
Kriteria
Formula
Optimum
1
SSE
(Y Yˆ)
Minimum
2
MSE
(Y Yˆ) /(n p 1)
Minimum
3
R2
(YˆY ) (Y Y )
Maksimum
4
Adjusted R2
2
2
1 [1 R 2 ]
2
100% 2
(n 1) (n p )
Maksimum
5
Cp Mallow
SSE (n 2 p ) MSE
Minimum
6
AIC
ln(SSE/n) +2p/n
Minimum
7
SBC
ln(SSE/n)+p/n ln(n)
Minimum
7
Untuk memperoleh model terbaik, ada beberapa metode yang biasa digunakan yaitu :
Metode Backward
Penjelasan Mulai dengan model lengkap, kemudian variabel independent yang ada dievaluasi, jika ada yang tidak significant dikeluarkan yang paling tidak significant, dilakukan terus menerus sampai tidak ada lagi variabel independent yang tidak significant
Forward
Variabel independent yang pertama kali masuk ke dalam model adalah
variabel
yang
mempunyai
korelasi
tertinggi
dan
significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasinya dengan variabel dependent adalah tertinggi kedua dan masih significant, dilakukan terus menerus sampai tidak ada lagi variabel independent yang significant StepSwise
Gabungan antara metode forward dan backward, variabel yang pertama kali masuk adalah variabel yang korelasinya tertinggi dan significant dengan variabel dependent, variabel yang masuk kedua adalah variabel yang korelasi parsialnya tertinggi dan masih significant,
setelah variabel tertentu masuk ke dalam
model maka variabel lain yang ada di dalam model dievaluasi, jika ada variabel yang tidak significant maka variabel tersebut dikeluarkan Best subset Metode ini tersedia di dalam program paket MINITAB. Metode regression
ini menyajikan k buah model terbaik untuk model dengan 1, 2, …, pv ar i abelindependent.
8
Kegiatan Praktikum Tentukan model terbaik yang menggambarkan hubungan antara harapan hidup perempuan (lifeexpf) dengan
pendapatan perkapita (gdp_cap),
persenta-se penduduk yang tinggal dikota (urban), persentase penduduk yang dapat membaca (literacy), banyaknya kematian per 1000 penduduk (death_rt). rata-rata banyaknya anak (fertility), konsumsi makanan per-hari (calories) dengan menggunakan metode stepwise dan best subset regression. Penyelesaian : Dengan bantuan SPSS permasalahan di atas dapat diselesaikan dengan cara : [klik analyze+regression+linear]
atau melalui syntax : REGRESSION /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT lifeexpf /METHOD=STEPWISE gdp_cap calories literacy urban death_rt
dan hasilnya adalah :
9
.
ANOVA Model 1
2
3
4
Regression Residual Total Regression Residual Total Regression Residual Total Regression Residual Total
Sum of Squares 7229.894 2337.565 9567.459 8206.309 1361.150 9567.459 8906.744 660.716 9567.459 9017.788 549.672 9567.459
df 1 72 73 2 71 73 3 70 73 4 69 73
Mean Square 7229.894 32.466
F 222.690
Sig. .000
4103.154 19.171
214.028
.000
2968.915 9.439
314.544
.000
2254.447 7.966
282.999
.000
Model Summary Model 1 2 3 4
R .869a .926b .965c .971d
R Square .756 .858 .931 .943
Adjusted R Square .752 .854 .928 .939
Std. Error of the Estimate 5.698 4.378 3.072 2.822
a. Predictors: (Constant), People who read (%) b. Predictors: (Constant), People who read (%), Death rate per 1000 people c. Predictors: (Constant), People who read (%), Death rate per 1000 people, Gross domestic product / capita d. Predictors: (Constant), People who read (%), Death rate per 1000 people, Gross domestic product / capita, Daily calorie intake
10
Coefficients a
Model 1 2
3
4
(Constant) People who read (%) (Constant) People who read (%) Death rate per 1000 people (Constant) People who read (%) Death rate per 1000 people Gross domestic product / capita (Constant) People who read (%) Death rate per 1000 people Gross domestic product / capita Daily calorie intake
Unstandardized Coefficients B Std. Error 36.226 2.275 .430 .029 53.279 2.961 .330 .026
Standardized Coefficients Beta
.667
t 15.924 14.923 17.995 12.606
Sig. .000 .000 .000 .000
.869
-.966
.135
-.378
-7.137
.000
62.740 .192
2.350 .024
.389
26.699 7.890
.000 .000
-1.211
.099
-.474
-12.214
.000
.001
.000
.363
8.614
.000
54.214 .172
3.143 .023
.347
17.252 7.456
.000 .000
-1.136
.093
-.444
-12.178
.000
.000
.000
.252
5.170
.000
.004
.001
.186
3.734
.000
a. Dependent Variable: Average female life expectancy
Sehingga model terbaiknya adalah : lifeexpf = 54.214 +0.172 literacy –1.136 death_rt + 0.000 gdp_cap +0.004 calori dengan R2= 0.943 Dengan menggunakan best subset regression :[klik stat+regression+best subset]
11
diperoleh hasil : Response is LIFEEXPF
Vars
R-Sq
R-Sq(adj)
C-p
S
1 1 1 2 2 2 3 3 3 4 4 4 5
75.6 60.2 59.8 86.9 85.8 83.7 93.1 92.1 89.6 94.3 93.5 92.5 94.4
75.2 59.6 59.3 86.6 85.4 83.3 92.8 91.7 89.2 93.9 93.1 92.1 94.0
225.8 412.2 416.2 90.3 103.5 128.9 17.5 30.1 59.8 5.5 15.1 26.2 6.0
5.6979 7.2752 7.3055 4.1981 4.3686 4.6816 3.0711 3.2935 3.7688 2.8207 3.0095 3.2150 2.8112
U R B A N
L I T E R A C Y
G D P _ C A P
C A L O R I E S
D E A T H _ R T
X X X X X X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X
Dengan menggunakan criteria Cp-Mallows dan MSE terkecil diperoleh model terbaik yang mengandung variabel literacy, gdp_cap, calories dan death_rt, hasil ini sama dengan metode stepwise
12
DUMMY VARIABLE
Dalam beberapa kasus tertentu, penggunaan analisis regresi melibatkan adanya variabel independent yang berskala nominal ataupun ordinal. Untuk mengatasi hal ini dipergunakan dummy variable. Sebagai contoh penggunaan dummy variable adalah penentuan model terbaik yang menggambarkan hubungan antara harapan hidup perempuan dengan pendapan perkapita dan region (Asia dan Afrika). Model yang menggambarkan hubungan antar variabel tersebut dapat dinyatakan dalam persamaan regresi : lifeexpf = ln(gdp_cap) + untuk region Asia lifeexpf = ln(gdp_cap) + untuk region Afrika Dua persamaan regresi di atas dapat dijadikan satu persamaan regresi dengan cara menyisipkan sebuah dummy variable (D) yang bernilai 0 untuk region Asia dan 1 untuk region Afrika : lifeexpf = ln(gdp_cap) + D + D*ln(gdp_cap) + Nilai menggambarkan perbedaaan intercept antara region Asia dan Afrika, sedangkan nilai menggambarkan perbedaan slope antara region Asia dan Afrika. Jika region yang dilibatkan lebih dari dua, misalkan region Asia, Afrika dan Amerika Latin maka persamaan regresinya menjadi : lifeexpf=ln(gdp_cap)+D1+D1*ln(gdp_cap)+D1+D1*ln(gdp_cap)+ dengan aturan pemberian nilai dummy variabel adalah : region
D1 D2 Persamaan regresi
Asia
0
0
ln(gdp_cap)+
Afrika
0
1
+ ln(gdp_cap)+
Amerika Latin
1
0
+ ln(gdp_cap)+
13
Secara umum banyaknya dummy variable yang dibutuhkan adalah banyaknya region-1. Kegiatan Praktikum : Tentukan model yang menggambarkan hubungan antara harapan hidup perempuan dan pendapatan perkapita di region Asia, Afrika dan Amerika Latin Penyelesaian : Pembangkitan nilai D1 dan D2 :[klik transform+compute]
14
Lakukan dengan cara yang sama untuk membangkitkan variabel D2( bernilai 0 untuk region Asia, Amerika Latin dan bernilai 1 untuk region Afrika). Pembangkitan nilai D1*ln(gdp_cap) dan D2*ln(gdp_cap)
15
Analisis regresi :[klik analyze+regression+linear]
dan hasilnya adalah : Coefficientsa
Model 1
(Constant) ln_gdp D1 d2 d1_lngdp d2_lngdp
Unstandardized Coefficients B Std. Error 27.034 6.116 5.643 .834 22.860 14.130 -4.190 10.402 -2.986 1.761 -.720 1.547
Standardized Coefficients Beta .720 .975 -.184 -1.049 -.205
t 4.420 6.767 1.618 -.403 -1.696 -.465
Sig. .000 .000 .112 .689 .097 .644
a. Dependent Variable: Average female life expectancy
Masih ada koefisien regresi yang tidak significant, setelah digunakan metode backward diperoleh hasil sebagai berikut :
16
Coefficientsa
Model 1
2
3
4
Unstandardized Coefficients B Std. Error 27.034 6.116 5.643 .834 22.860 14.130 -4.190 10.402 -2.986 1.761 -.720 1.547 25.585 4.904 5.836 .677 24.308 13.545 -3.179 1.680 -1.333 .284 28.771 4.674 5.412 .649 -.197 .255 -1.397 .288 29.562 4.542 5.202 .587 -1.308 .263
(Constant) ln_gdp D1 d2 d1_lngdp d2_lngdp (Constant) ln_gdp D1 d1_lngdp d2_lngdp (Constant) ln_gdp d1_lngdp d2_lngdp (Constant) ln_gdp d2_lngdp
Standardized Coefficients Beta .720 .975 -.184 -1.049 -.205 .745 1.037 -1.117 -.379 .691 -.069 -.398 .664 -.373
t 4.420 6.767 1.618 -.403 -1.696 -.465 5.217 8.619 1.795 -1.892 -4.695 6.156 8.341 -.773 -4.851 6.508 8.860 -4.972
Sig. .000 .000 .112 .689 .097 .644 .000 .000 .079 .065 .000 .000 .000 .443 .000 .000 .000 .000
a. Dependent Variable: Average female life expectancy
Model terbaik yang menggambarkan hubungan antara harapan hidup perempuan dan pendapatan per-kapita adalah : lifeexpf = 29.562 + 5.202 ln(gdp_cap) -1.308 D2*ln(gdp_cap) atau region
D1 D2 Persamaan regresi
Asia
0
0
lifeexpf = 29.562 + 5.202 ln(gdp_cap)
Afrika
0
1
lifeexpf = 29.562 + 3.894 ln(gdp_cap)
Amerika Latin
1
0
lifeexpf = 29.562 + 5.202 ln(gdp_cap)
17
INFLUENTIAL OBSERVATIONS
Influential observations adalah titik pengamatan yang keberadaannya mempunyai pengaruh terhadap persamaan regresi, sebagai contoh seperti yang tetera pada gambar di atas, titik (13.12.74) adalah influential observation, persamaan regresi kalau titik ini diikutkan adalah : The regression equation is Y3 = 3.00 + 0.500 X
R2 = 66.6%
sedangkan kalau titik ini tidak diikutkan, diperoleh persamaan regresi : The regression equation is Y3 = 4.01 + 0.345 X R2 = 100.0 %
18
Untuk mendeteksi adanya influential observation dapat dipergunakan beberapa statistik berikut :
No 1
Statistik
Formula
influential
DFFIT
Penjelasan Difference fit
Yˆ Yˆ i (i ) stdev(Yˆ)
p n
2
i
Perbedaan nilai Y taksiran
dengan
atau tanpa pengamatan ke-i 2
DFBETAS
Difference Betas b j b j ( i )
stdev(b j )
2
Perbedaan
n
koefisien
nilai regresi
dengan atau tanpa pengamatan ke-i 3
Cook’ sDi st ance
Perbedaan vector
(bi b)' ( X ' X )(b( i ) b) pMSE
F0.50, p.n p
koefisien
regresi
dengan atau tanpa pengamatan ke-i
4
COVRATIO
cov( )
Covariance ratio
cov( (i )
Nisbah dterminan matriks covariance koefisien
regresi
dengan atau tanpa pengamatan ke-i
19
Kegiatan Praktikum : Tentukan Negara di Asia yang keberadaanya mempengaruhi hubungan antara harapan hidup perempuan dengan pedapatan per-kapita dengan menggunakan kriteria DFFIT Penyelesaian Memilih Negara di region Asia : [klik Data+Select Cases]
Analisis regresi : [klik analyze + regression +linear]
klik save
20
dan hasilnya adalah : Coefficientsa
Model 1
(Constant) ln_gdp
Unstandardized Coefficients B Std. Error 27.034 6.350 5.643 .866
Standardized Coefficients Beta .860
a. Dependent Variable: Average female life expectancy
Model Summaryb Model 1
R .860a
R Square .739
Adjusted R Square .722
Std. Error of the Estimate 5.744
a. Predictors: (Constant), ln_gdp b. Dependent Variable: Average female life expectancy
21
t 4.257 6.517
Sig. .001 .000
Negara yang merupakan influential observation adalah Negara yang nilai
DFFIT 2
p n
atau
DFFIT 0.69 , Negara tersebut adalah Negara
Afganistan, Cina, Kamboja dan Vietnam
22
ASUMSI DALAM ANALISIS REGRESI Model
linear
yang
menggambarkan
hubungan
antara
variabel
independent dan variabel dependent adalah : Y = X1 + X2 +…+pXp + Asumsi yang diperlukan untuk model ini adalah : a. ~N(0. 2 ) 2 b. var( i)= untuk semua i
c. cov( j I, j) = 0 untuk i d. antar X saling independent Asumsi-asumsi di atas kadang-kadang tidak dipenuhi, untuk mendeteksi dan mengatasi adanya masalah pelanggaran asumsi di atas dapat dilakukan : No.
Masalah
1
Residual
Deteksi
Solusi
tak normal probability plot
berdistribusi
Tranformasi variabel
Uj i k enor mal an:KS, … Regresi bootstrap
normal 2
Hetroscedastivity Plot e dengan yˆ
Transformasi variabel
2 var( i)
Weighted Least Squares
Uji Glesjer, White Uji Golfeld-Quandt
3
Autocorrelation
Plot e dengan yˆ
Regresi beda, Regresi ratio
cov( 0 I, j)
Uji Durbin Watson
memasukkan trend
untuk ij
ACF plot
Cochrane Orcutt, HildrethLu,Durbin, Prais-Winsten
4
Multicollinearity
r(Xi,Xj) tinggi, VIF>10
X ' X 0
stepwise Principal component reg.
R2 tinggi tetapi tidak ada yang significant
23
Ridge regression
REGRESI BOOTSTRAPP Asumsi yang utama di dalam analisi regresi adalah asumsi kenormalan residual. Asumsi ini dibutuhkan terkait dengan penggunaan statistik uji F dan t. Jika asumsi kenormalan ini tidak dipenuhi maka kesimpulan dari hasil pengujian dengan statistik uji F dan t menjadi tidak valid asumsi
kenormalan
ini
dapat
dipergunakan
uji
Untuk menguji
Kolmogorov-Smirnov,
Anderson-Darling, Shapiro-Wilk, dan Goodness-of-fit jika hasil pengujian kenormalan menyimpulkan asumsi ini tak terpenuhi maka salah satu solusi adalah dengan menerapkan metode regresi bootstrap. Algoritma dari metode regresi bootstrap adalah : 1. mulai 2. Tentukan nilai taksiran dari model Y=X dengan metode kuadrat ˆ dan nilai taksirannya adalah terkecil, hasil taksirannya adalah j,ols Yˆ i ,ols
Tentukan nilai e1, e2,…,en, ei Yi Yˆ B=1000 i=0 i=i+1 Melakukan resampling with resampling sebanyak n dari ei hasil resamplingnya adalah e(i) 8. Menentukan nilai Yi Yˆ i ,ols e( i ) ˆ pada resampling ke-i yaitu dari dan data Yi 9. Menduga besarnya j j ,i dengan Xji dengan metode kuadrat terkecil 10.Jika i
24
Kegiatan Praktikum : Tentukan model yang menggambarkan hubungan antara harapan hidup perempuan dengan pendapatan perkapita serta ujilah asumsi kenormalan residual dengan uji Kolmogorov-Smirnov. Penyelesaian : Dengan bantuan MINITAB permaslahan ini dapat diselesaikan dengan cara Tranformasi variabel MTB > let c27=loge(lifeexpf) MTB>namec27=’ l n_gdp’ Regresi [klk stat+regression+regression]
klik storage
25
dan hasilnya adalah : The regression equation is LIFEEXPF = 21.7 + 6.15 ln_gdp Predictor Coef SE Coef T P Constant 21.670 3.187 6.80 0.000 ln_gdp 6.1538 0.3981 15.46 0.000 S = 5.907 R-Sq = 69.1% R-Sq(adj) = 68.8% Analysis of Variance Source DF SS MS F Regression 1 8336.9 8336.9 238.93 Residual Error 107 3733.4 34.9 Total 108 12070.3
Pengujian asumsi kenormalan [klik stat+basic statistics+normality test]
26
P 0.000
Dengan
menggunakan
metode
kuadrat
terkecil
diperoleh
hasil
kenormalan residual tidak terpenuhi, sehiingga sebagai alternatif digunakan metode regresi bootstrapp yang dinyatakan dalam macro MINITAB : macro regb y x mconstant n i b low_b0 up_b0 low_b1 up_b1 mcolumn x y yy yhat e ee b0 b1 beta b0_boot b1_boot let n=count(y) let b=1000 regr y 1 x; resid e; fits yhat. do i=1:b sample n e ee; replacement. let yy=yhat+ee regr yy 1 x; coef beta. let b0(i)=beta(1) let b1(i)=beta(2) enddo histo b0 histo b1 let b0_boot=mean(b0) let b1_boot=mean(b1) sort b1 b1 sort b0 b0 let low_b0=b0(25) let up_b0=b0(975) let low_b1=b1(25) let up_b1=b1(975) print b0_boot low_b0 up_b0 print b1_boot low_b1 up_b1 endmacro Untuk menjalankan macro di atas dapat dilakukan dengan cara : MTB>%r egb. t x t‘ l i f eex pf ’‘ l n_gdp’ dan hasilnya adalah :
27
b0
low_b0 up_b0
b1
14.7859 27.6859
low_b1 up_b1
b0_boot 21.5513
5.40552 6.96901
b1_boot 6.16731
Confidence interval yang diperoleh untuk dan semuanya tidak melalui titik 0, sehingga dapat disimpulkan dua koefisien regresi ini significant pada . Dan model yang diperoleh adalah : lifeexpf = 21.5513 + 6.16731 ln(gdp_cap)
28
HETEROSCEDASTICITY Heteroscedasticity adalah sifat residual yang mempunyai varians yang tidak homogen, atau : var(i ) i2 2i
Untuk memeriksa sifat ini dapat dipergunakan scatter-plot antara residual yang sudah dibakukan dengan nilai yˆ, jika scatter plot membentuk gambar seperti pola sebelah kiri berikut maka varians residual masih dianggap konstan dan jika membentuk pola seperi sebelah kanan maka varians residual cenderung tidak homogen.
Selain dengan menggunakan scatter-plot seperti di atas, keberadaan hetrocedasticity juga dapat diuji dengan menggunakan uji Glejser dengan cara meregresikan
kuadrad
atau
harga
mutlak
residual
dengan
variabel
independent, jika ada variabel independent yang significant maka varians residual cenderung tidak homogen, untuk mengatasi hal ini biasanya dilakukan transformasi dengan cara membagi seluruh nilai variabel dengan variabel yang significant, atau :
29
Jika e k .x1 . maka dilakukan transformasi sebagai berikut :
x x x y 1 0 1 1 2 2 3 3 ... atau x1 x1 x1 x1 x1 y * 1 0 x1* 2 x 2* 3 x3* ...
Koefisien regresi dari model ini kemudian ditaksir dengan menggunakan metode kuadrat terkecil sehingga diperoleh : y * b1 b0 x1* b2 x 2* b3 x3* ...
Kemudian
model
ini
dikembalikan
ke
variabel
asal
dengan
menggandakan ruas kiri dan ruas kanan dengan x1 sehingga diperoleh : y b1 b0 x1 b2 x 2 b3 x3 ...
Secara umum masalah
heterocedasticity dapat diatasi dengan
mengguna-kan metode weighted least-squares yaitu : ˆ( X ' 1 X ) 1 X1Y dan adalah matriks diagonal dengan unsur
diagonal adalah i Selain dengan menggunakan uji Glejser, uji adanya heteroscedasticity dapat diuji dengan koefisien korelasi Spearman antara residual dengan variabel independent, jika korelasi ini significant maka cenderung terjadi kasus hetroscedasticity. Koefisien korelasi Spearman dihitung dengan cara :
6D 2
r 1 2 dan D adalah selisih rank antar dua variabel. n(n 1)
30
Kegiatan Praktikum : Dengan
menggunakan
uji
Glejser,
heteroscedasticity untuk data berikut : Year Saving Income 1 264 8777 2 105 9210 3 90 9954 4 131 10508 5 122 10979 6 107 11912 7 406 12747 8 503 13499 9 431 14269 10 588 15522 11 898 16730 12 950 17663 13 779 18575 14 819 19635 15 1222 21163 16 1702 22880 17 1578 24127 18 1654 25604 19 1400 26500 20 1829 27670 21 2200 28300 22 2017 27430 23 2105 29560 24 1600 28150 25 2250 32100 26 2420 32500 27 2570 35250 28 1720 33500 29 1900 36000 30 2100 36200 31 2300 38200
31
periksalah
adanya
kasus
Penyelesaian : Dengan bantuan MINITAB permasalahan di atas, dapat diselesaikan dengan cara : MTB > regr 'saving' 1 'income'; SUBC> fits c11; SUBC> resid c12. dan hasilnya adalah : The regression equation is saving = - 648 + 0.0847 income Predictor Constant income
Coef -648.1 0.084665
S = 247.6
SE Coef 118.2 0.004882
R-Sq = 91.2%
T -5.49 17.34
P 0.000 0.000
R-Sq(adj) = 90.9%
Untuk melakukan uji Glejser, dilakukan perintah : MTB > let c13=abs(c12) MTB > name c13='abs_res' MTB > regr 'abs_res' 1 'income' The regression equation is abs_res = - 7.7 + 0.00935 income Predictor Constant income
Coef -7.69 0.009346
S = 100.0
SE Coef 47.73 0.001972
R-Sq = 43.6%
T -0.16 4.74
P 0.873 0.000
R-Sq(adj) = 41.7%
Dari hasil uji Glejser ini, diperoleh informasi adanya hubungan antara variabel harga mutlak residual dengan variabel income sehingga terjadi kasus heteroscedasticity. Karena nilai harga mutlak residual sebanding dengan nilai income maka selanjutnya dilakukan analisis regresi untuk model : saving/income = income)+ Dengan bantuan MINITAB analisis regresi untuk model di atas dapat dilakukan dengan cara :
32
MTB > MTB > MTB > MTB > SUBC>
let c4=saving/income let c5=1/income name c4='y*' c5='x*' regr 'y*' 1 'x*'; resid c21.
dan hasilnya adalah : The regression equation is y* = 0.0881 - 723 x* Predictor Constant x* S = 0.01051
Coef 0.088139 -722.50
SE Coef 0.004372 72.36
R-Sq = 77.5%
T 20.16 -9.98
P 0.000 0.000
R-Sq(adj) = 76.7%
Pengujian adanya heteroscedasticity dengan uji Glejser MTB > let c22=abs(c21) MTB > name c22='absres' MTB > regr 'absres' 1 'income' Hasil pengujian Glejser The regression equation is absres = 0.00793 +0.000000 income Predictor Coef SE Coef T P Constant 0.007931 0.002608 3.04 0.005 income 0.00000003 0.00000011 0.31 0.760 S = 0.005465 R-Sq = 0.3% R-Sq(adj) = 0.0% NIlai p untuk variabel income >5% sehingga tidak ada hubungan antara harga mutlak residual dengan income atau varians residual cenderung sudah homogen. Sedangkan asumsi kenormalan residual dapat diuji dengan cara : MTB > %NormPlot C21; SUBC> Kstest. Dan hasil uji kenormalan dengan menggunakan uji Kolmogorov Smirnov adalah :
33
Dari hasil pengujian Komogorov Smirnov, diperoleh hasil p-value>5% sehingga dapat diputuskan residual sudah berdistribusi normal Model yang menggambarkan hubungan antara saving dengan income setelah dilakukan transfromasi adalah : y* = 0.0881 - 723 x* atau : saving/income= 0.0881 -723 (1/income) setelah ruas kiri dan kanan digandakan dengan income maka diperoleh : saving=-723 +0.0881 income
34
MULTICOLLINEARITY Multicollinearity Adanya hubungan linear antar variabel independent Multicollinearity dapat dideteksi dengan : a. Variance Inflation Factor (VIF) yang tinggi, biasanya>10 b. korelasi antar variabel independent yang tinggi c.
X ' X 0
d. R2 tinggi tetapi tidak ada variabel independent yang significant e. Koefisien korelasi dan koefisien regresi berbeda tanda Multicollinearity dapat diatasi dengan : a. Mengeluarkan salah satu variabel independent yang berkorelasi tinggi dengan variabel independent yang lain. Pengeluaran variabel ini dapat dilakukan secara manual ataupun otomatis melalui metode stepwise. ˆ( X ' X kI ) 1 X ' Y , 0
c. Principal Component Regression, tahapan dari metode ini adalah : -
x x Melakukan pembakuan data : z s
-
Membangkitkan variabel baru yang saling independent w1 = a11z1 + a12z2 +… +a1pzp w2 = a21z1 + a22z2 +… + a2pzp … wp = ap1z1 + ap2z2 +… +appzp atau wi =a’ ’ ix, nilai a I adalah eigen-vector dari eigen-value ke-i dari matriks korelasi antar variabel independent
-
Melakukan regresi y dengan w dan menyatakan model regresi y dengan w ke dalam model y dengan x
35
Kegiatan Praktikum 1. Periksa adanya kasus multicollinearity pada pemodelan harapan hidup perempuan dengan pendapatan perkapita, persentase penduduk yang tinggal di kota, persentase perempuan yang dapat membaca, persentase laki-laki yang dapat membaca di region Amerika Latin (region=6). 2. JIka ada kasus multicollinearity, atasi dengan beberapa metode untuk mengatasi multicollinearity. Penyelesaian a. Memilih data dari region Amerika Latin klik data+select cases+if
b. Memeriksa adanya kasus multicollinearity dengan menentukan matriks korelasi antar variabel independent :klik analyze+correlate+bivariate
36
Correlations Gross domestic product / capita
Average female life expectancy Average female life expectancy Gross domestic product / capita People living in cities (%) Females who read (%) Males who read (%)
1 .550** .500* .833** .756**
People living in cities (%)
Males who read (%)
Females who read (%)
.550**
.500*
.833**
.756**
1 .285 .617** .581**
.285 1 .578** .542*
.617** .578** 1 .956**
.581** .542* .956** 1
**. Correlation is significant at the 0.01 level (2-tailed). *. Correlation is significant at the 0.05 level (2-tailed).
Korelasi antar variabel independent cukup tinggi dan significant segingga ada kecenderungan terjadi kasus multicollinearity. c. Memeriksa adanya kasus analyze+regression+linear
multicollinearity
klik statistics
37
dengan
VIF:klik
Coefficientsa
(Constant) Gross domestic product / capita People living in cities (%) Males who read (%) Females who read (%)
Unstandardized Coefficients B Std. Error 45.921 8.483
t 5.413
Sig. .000
Collinearity Statistics VIF
.000
.001
.320
.753
1.640
.011
.068
.159
.875
1.525
-.273 .594
.274 .238
-.997 2.498
.334 .024
11.573 13.289
a. Dependent Variable: Average female life expectancy
Ada variabel independent yang nilai VIF>10 dan tanda koefisien regresi untuk males who read negatif sedangkan koefisien korelasinya positif sehingga memang ada kasus multicollinearity. d. Mengatasi multicollinearity dengan metode stepwise : klik analyze + regression + linear + method stepwise Coefficientsa
Model 1
(Constant) Females who read (%)
Unstandardized Coefficients B Std. Error 39.013 5.077 .406 .062
a. Dependent Variable: Average female life expectancy
38
t 7.684 6.557
Sig. .000 .000
Collinearity Statistics VIF 1.000
e. Mengatasi multicollinearity dengan ridge regression : klik file + new + syntax
klik Run +All R-SQUARE AND BETA COEFFICIENTS FOR ESTIMATED VALUES OF K K RSQ GDP_CAP URBAN LIT_FEMA LIT_MALE ______ ______ ________ ________ ________ ________ .00000 .71418 .054792 .026292 1.216924 -.453266 .05000 .69610 .094060 .064195 .727695 -.027707 .10000 .68316 .108722 .079079 .576309 .089996 .15000 .67496 .116972 .087904 .499551 .141542 .20000 .66894 .122256 .093883 .451628 .168551 .25000 .66400 .125810 .098171 .418018 .183994 .30000 .65966 .128228 .101326 .392635 .193180 .35000 .65564 .129847 .103668 .372467 .198665 .40000 .65182 .130880 .105402 .355839 .201821 .45000 .64811 .131470 .106666 .341745 .203441 .50000 .64445 .131719 .107560 .329540 .204016 .55000 .64083 .131700 .108158 .318790 .203861 .60000 .63722 .131470 .108517 .309190 .203186 .65000 .63360 .131071 .108681 .300520 .202137 .70000 .62999 .130537 .108683 .292617 .200817 .75000 .62637 .129895 .108551 .285355 .199298 .80000 .62273 .129165 .108309 .278639 .197636 .85000 .61909 .128365 .107975 .272392 .195871 .90000 .61544 .127509 .107564 .266551 .194033 .95000 .61179 .126608 .107088 .261068 .192146 1.0000 .60813 .125671 .106558 .255901 .190227
Besarnya k dipilih sedemikian hingga nilai koefisien regresinya dianggap sudah tidak berubah lagi, besarnya k yang memenuhi
39
kriteria ini adalah k=0.35, pemilihan k ini juga dapat ditentukan berdasarkan gambar berikut :
40
f. Mengatasi multicollinearity dengan principal component regression 1.
Menentukan skor komponen (w1, w2, …) MTB > PCA 'GDP_CAP' 'URBAN' 'LIT_MALE' 'LIT_FEMA'; SUBC> Coefficients c41-c44; SUBC> Scores c51-c54. Eigenanalysis of the Correlation Matrix
2.
Eigenvalue Proportion Cumulative
2.8278 0.707 0.707
0.7163 0.179 0.886
0.4141 0.104 0.990
0.0419 0.010 1.000
Variable GDP_CAP URBAN LIT_MALE LIT_FEMA
PC1 -0.435 -0.414 -0.560 -0.571
PC2 0.655 -0.755 0.028 0.022
PC3 -0.616 -0.506 0.478 0.368
PC4 0.049 0.046 0.676 -0.734
Meregresikan y dengan w Hanya w1 yang eigen-value-nya >1 sehingga regresinya hanya dengan w1 MTB > regr 'lifeexpf' 1 'w1' The regression equation is LIFEEXPF = 71.8 - 3.51 w1 Predictor Constant w1
3.
Coef 71.7619 -3.5140
SE Coef 0.9930 0.6051
T 72.26 -5.81
P 0.000 0.000
Menyatakan model regresi ke dalam variabel asal y = 71.8 -3.51 w1 y = 71.8 –3.51(-0.435 z1 -0.414 z2 -0.560 z3 -0.571 z4 y = 71.8 + 1.53 z1 + 1.45 z2 + 1.97 z3 + 2.00 z4 x x3 x x1 x x 2 x x 4 y 71.8 1.53 1 1.45 2 1.97 3 2 4 s x1 s x2 s x3 s x4
41
AUTOCORRELATION Autocorrelation Adanya hubungan antar residual atau residual bersifat tidak saling independent, kasus ini sering dijumpai pada data time series.
Autocorrelation dapat dideteksi dengan : a. Statistik uji Durbin-Watson : n
(e
d i 2
i
ei 1 ) 2
n
e i 1
2 i
b. ACF plot, ada nilai r(et,et-k) melampaui batas 0
2 n
maka residual
tidak saling independent c. Statistik uji Ljung-Box k
r j2
Q n(n 2) tolak Ho : residual saling independent jika Q>k n j j 1
Adanya residual yang saling dependent dapat diatasi dengan : a. Regresi beda yt y t 1 0 1 ( xt xt 1 ) t b. Regresi Nisbah
yt x 0 1 t t y t 1 xt 1 c. yt . y t 1 0 1 ( xt .xt 1 ) t
42
Kegiatan Praktikum tahun 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999
export 102 105 105 105 104 104 106 106 105 106 106 106 106 106 108 108 109 110 113 113 112 114 113 112 114 113 117 117 117 117
gdp 255 261 261 260 257 257 261 260 257 259 259 258 257 257 261 261 262 264 271 271 268 271 269 266 270 267 276 276 276 275
Tentukan model yang menggambarkan hubungan antara gdp dengan export dan periksa apakah residual sudah saling independent.
43
Penyelesaian a. Penentuan model regresi dan pemeriksaan asumsi independent residual MTB>r egr‘ gdp’1‘ ex por t ’ ; SUBC > resid c5. The regression equation is gdp = 110 + 1.41 export Predictor Constant export S = 1.549
Coef 110.354 1.40664
SE Coef 6.839 0.06251
R-Sq = 94.8%
T 16.14 22.50
P 0.000 0.000
R-Sq(adj) = 94.6%
MTB > %acf c5
Nilai autokorelasi residual keluar dari batas pada lag ke-1 sehingga residual tidak saling independent.
44
b. Mengatasi autocorrelation dengan regresi beda MTB > diff 'export' c7 MTB > diff 'gdp' c8 MTB > name c7 'dif_xprt' c8 'diff_gdp' MTB > regr c8 1 c7; SUBC> resid c9. The regression equation is diff_gdp = - 0.488 + 2.28 dif_xprt 29 cases used 1 cases contain missing values Predictor Constant dif_xprt S = 0.4956
Coef -0.48789 2.27658
SE Coef 0.09875 0.06924
R-Sq = 97.6%
T -4.94 32.88
R-Sq(adj) = 97.5%
MTB > %acf c9
residual sudah saling independent, dan modelnya adalah : ( gdp t gdpt 1 ) 0.488 2.28(exp ort t exp ort t 1 )
45
P 0.000 0.000
Mengatasi autocorrelation dengan regresi nisbah MTB > let c11=c2/lag(c2) MTB > let c12=c3/lag(c3) MTB > regr c12 1 c11; SUBC> resid c13. The regression equation is C12 = 0.0563 + 0.942 C11 29 cases used 1 cases contain missing values Predictor Constant C11 S = 0.001930
Coef 0.05627 0.94186
SE Coef 0.02957 0.02942
R-Sq = 97.4%
T 1.90 32.01
R-Sq(adj) = 97.3%
MTB > %acf c13
residual sudah saling independent, dan modelnya adalah
gdp t exp ort t 0.0563 0.942 gdp t 1 exp ort t 1
46
P 0.068 0.000
ROBUST REGRESSION Metode pendugaan parameter yang paling sering dipergunakan di dalam analisis regresi adalah metode kuadrat terkecil (least squares), metode ini mempunyai kelemahan jika diterapkan pada data yang mengandung pengamatan berpengaruh (inflentual observation), persamaan regresi yang dihasilkan oleh metode kuadrat terkecil cenderung mudah berubah-ubah dengan adanya pengamatan berpengaruh.
Untik mengatasi kelemahan metode kuadrat terkecil ini dapat dilakukan dengan dua cara yaitu : a.
Mengeluarkan titik yang berpengaruh yang dapat dideteksi dengan dffit, cook distance, dfbetas, setelah itu tetap menggunakan metode kuadrat terkecil
b.
Tetap menggunakan seluruh data, tetapi dengan memberikan bobot yang kecil untuk pengamatan yang berpengaruh, metode ini dikenal dengan nama metode regresi robust.
47
Metode pendugaan parameter di dalam analisis regresi robust a.
Least Absolute Deviation (LAD), metode ini bekerja dengan n
meminimukan harga mutlak residual atau meminimumkan
e i 1
b.
Least
Trimmed
Squares,
metode
ini
bekerja
i
dengan
cara
meminimumkan jumlah kuadrat q buah residual terkecil atau q
meminimumkan
e i 1
c.
2 i
, besarnya q n / 2
Least Median Squares (LMS), metode ini bekerja dengan cara meminimumkan median kuadrat residual atau meminimumkan median( ei2 )
d.
M estimate, metode ini dikenalkan oleh Huber dengan cara meminimumkan jumlah fungsi dari residual atau meminimumkan n
f (e ) , jika i 1
i
f (ei ) ei2 maka metode ini sama dengan OLS dan jika
f (ei ) ei maka metode ini sama dengan LAD. Peminimuman dari n
f (e ) i 1
i
biasanya dilakukan dengan cara iteratively reweighted least
squares (IRLS) atau : min
n
n
i 1
i 1
f (ei ) ekuivalen dengan min wi ei2 dengan wi
f ( ei ) ei2
n
untuk metode
LAD :min
ei
n
ekuivalen dengan min
i 1
dengan wi wi 1
w e i 1
2 i i
1 , penentuan wi dapat juga ditentukan dengan cara : ei untuk ei median( ei ) dan
median( ei ) wi untuk ei median( ei ) ei
48
Implementasi metode LAD dapat dinyatakan dalam macro berikut : macro lad y x mconstant i n s iterasi delta mcolumn y x w error b_old b_new let n=count(y) let iterasi=0 let delta=10 regr y 1 x; resid error; coef b_old. let error=abs(error) let s=median(error) while delta>0.000001 and iterasi<100 let iterasi=iterasi+1 do i=1:n if error(i)<s let w(i)=1 else let w(i)=s/error(i) endif enddo regr y 1 x; weight w; resid error; coef b_new. let delta=sum(abs(b_old-b_new)) let error=abs(error) let s=median(error) let b_old=b_new endwhile endmacro
49
Kegiatan Praktikum Dari data Anscombe berikut, tentukan model regresi robust dengan metode LAD dan bandingkan hasilnya dengan metode OLS setelah pengamatan berpengaruhnya dikeluarkan. Nomor X Y 1 10 7.46 2 8 6.77 3 13 12.74 4 9 7.11 5 11 7.81 6 14 8.84 7 6 6.08 8 4 5.39 9 12 8.15 10 7 6.42 11 5 5.73 Penyelesaian Dengan menggunakan MINITAB diperoleh hasil sebagai berikut : MTB >%lad.txt c2 c1 The regression equation is Y = 4.01 + 0.345 X Predictor Coef SE Coef T P Constant 4.00533 0.03445 116.26 0.000 X 0.345467 0.003783 91.31 0.000 S = 0.03554 R-Sq = 99.9% R-Sq(adj) = 99.9% Analysis of Variance Source DF Regression 1 Residual Error 9 Total 10 Unusual Observations Obs X Y 3 13.0 12.7400
SS 10.533 0.011 10.545 Fit 8.4964
50
MS 10.533 0.001 SE Fit 0.0207
F 8338.16
Residual 4.2436
P 0.000
St Resid 2.99R
Setelah kasus ke-3 dihilangkan, diperoleh persamaan regresi berikut : MTB>l etc2( 3) =’ * ’ MTB > regr c2 1 c1 MTB > regr y 1 x The regression equation is Y = 4.01 + 0.345 X 10 cases used 1 cases contain missing values Predictor Coef SE Coef T P Constant 4.00565 0.00292 1369.81 0.000 X 0.345390 0.000321 1077.35 0.000 S = 0.003082 R-Sq = 100.0% R-Sq(adj) = 100.0% Setelah kasus ke-3 dihilangkan ternyata persamaan regresi dari OLS dan LAD adalah hampir sama
51
NONLINEAR REGRESSION Berdasarkan kelinearan antar parameter di dalam model regresi, maka model regresi dapat diklasifikasikan menjadi dua macam yaitu linear dan nonlinear. Model regresi dikatakan linear jika dapat dinyatakan dalam model :
y 0 1 x 1 2 x 2 3 x 3 ... k x k JIka model regresi tidak dapat dinyatakan ke dalam model di atas maka model yang diperoleh adalah model regresi non-linear, secara umum model regresi non-linear dapat dinyatakan dalam persamaan :
y f ( x , ) NIlai dapat diduga dengan dengan cara meminimukan jumlah kuadrat residual, jumlah kuadrat ini dapat diminimukan jika turunan pertama terhadap sama dengan nol atau : n
2
SSE y i f ( x i , ) i 1
n f ( x , ) SSE y i f ( xi , ) i 0 i 1
Hasil turunan pertama terhadap sama dengan nol membentuk suatu sistem persamaan non-linear yang tidak dapat diselesaikan secara langsung tetapi dapat didekati secara iteratif dengan menggunakan metode numerik, salah satu metode numerik yang dapat menyelesaikan hal ini adalah metode Gauss-Newton. Metode Gauss-Newton ini bekerja dengan menggunakan pendekatan deret Taylor dari fungsi
SSE sampai suku kedua. Nilai dugaan
pada iterasi ke i+1 adalah :
ˆ ˆ( ' ) 1 ' e i 1 i i i i i
52
dan
f ( x1 , ) 0 f ( x 2 , ) 0 ... f ( x n , ) 0
f ( x1 , ) 1 f ( x 2 , ) 1 f ( x n , ) 1
f ( x1 , ) k f ( x 2 , ) ... k f ( x n , ) ... k ...
Iterasi ini dihentikan jika nilai
ˆ ˆ 0.0000 ˆ ˆ atau i 1 i i 1 i Levenberg-Marquardt menyempurnakan metode Gauss-Newton dengan memasukkan konstanta (nilai awal yang besarnya berubah-ubah mengikuti perubahan SSE. Nilai akan diperkecil sepersepuluh kali dan iterasi diteruskan
jika SSE turun serta
nilai akan meningkat sepuluh kali dan
kembali ke iterasi awal jika SSE meningkat. Formula Levenberg-Marquardt adalah :
ˆ ˆ( ' diag ' ) 1 ' e i 1 i i i i i i i
53
Kegiatan Praktikum Tahun Penduduk 1980 100 1981 105 1982 110 1983 115 1984 124 1985 130 1986 135 1987 142 1988 149 1989 155 1990 165 1991 172 1992 182 1993 194 1994 203 1995 212 1996 223 1997 234 1998 246 1999 258 2000 271
Banyaknya penduduk pada interval tahun 1980 sampai dengan tahun 2000 diduga mempunyai pola pertumbuhan
eksponensial
yang
dapat
dinyatakan
dalam model :
y 0 e 1t Tentukan nilai dugaan untuk dan
Penyelesaian Model model
y 0 e 1 t adalah model non linear, berbeda dengan
y 0 e 1t e e
yang dapat dilinearkan dengan transformasi
logaritma, untuk menduga besarnya koefisien regresi digunakan metode Gauss-Newton dengan formula berikut :
ˆ ˆ( ' ) 1 ' e i 1 i i i i i
54
ˆ 100 (Nilai y pada tahun dasar) dan untuk Dengan nilai awal untuk 0 ˆ0.05 (nilai pertumbuhan relatif dari dua nilai y awal :100 ke 105). 1
Sedangkan nilai matriks dapat ditentukan dari
f 0
dan
1t f e 0
f e 1t 0 f 0 te1t 1 sehingga matriks menjadi :
e 1t1 1t 2 e ... 1t n e
0 t.e 1t1 0t.e 1t 2 ... 0t.e 1t n
dan matriks ’ adalah :
n 21ti e ' n i 1 t e2iti 0i i 1
0tie i 1 n 2 2 2i ti 0 ti e i 1 n
55
2i ti
f 1
yaitu :
Untuk menyelesaikan kaus ini dengan metode Gauss-Newton, dapat dilakukan dengan bantuan Macro MINITAB berikut : macro nonlin yy xx b0 b1 mconstant b0 b1 bb0 bb1 iterasi delta mcolumn yy xx x1 x2 b yhat error mmatrix x xt xtx xtxinv xte e yyhat h b_old b_new # # nilai awal # let b(1)=b0 let b(2)=b1 copy b b_old let yhat=b0*expo(b1*xx) let error=yy-yhat copy error e let x1=expo(b1*xx) let x2=b0*xx*expo(b1*xx) copy x1 x2 x let delta=10 let iterasi=0 # # iterasi gauss-newton # while delta>0.000001 and iterasi<100 let iterasi=iterasi+1 transpose x xt multiply xt x xtx invert xtx xtxinv multiply xt e xte multiply xtxinv xte h add b_old h b_new copy b_new b let bb0=b(1) let bb1=b(2) let delta=abs(b0-bb0)+abs(b1-bb1) let b0=bb0 let b1=bb1 copy b_new b_old let yhat=b0*expo(b1*xx) let error=yy-yhat copy error e let x1=expo(b1*xx) let x2=b0*xx*expo(b1*xx) copy x1 x2 x endwhile print b0 b1 endmacro
Untuk menjalankan macro MINITAB di atas dapat dilakukan dengan perintah :
56
MTB > DATA> DATA> MTB > DATA> DATA> DATA> DATA> MTB > b0 b1
set c1 0:20 end set c2 100 105 110 115 165 172 182 194 271 end %nonlin.txt c2 c1 100 0.05 100.150 0.0499193
124 203
130 212
135 223
142 234
149 246
155 258
Sehingga model pertumbuhan eksponensial banyaknya penduduk dari tahun 1980 sampai dengan tahun 2000 adalah :
y t 100 . 150 e 0 . 0499 t Dengan bantuan SPSS pemodelan regresi nonlinear untuk banyaknya penduduk dapat dilakukan dengan : klik analyze+regression+nonlinear
klik parameters
57
Iteration 1 1.1 2 2.1 3 3.1
Residual SS 22.83350008 22.58470063 22.58470063 22.58469961 22.58469961 22.58469961
B0 100.000000 100.149827 100.149827 100.149728 100.149728 100.149729
B1 .050000000 .049919149 .049919149 .049919293 .049919293 .049919293
Nilai koefisien regresi dan SSE sudah tidak berubah lagi sehingga iterasi berhenti. Nonlinear Regression Summary Statistics Dependent Variable Y Source DF Sum of Squares Mean Square Regression 2 681946.41530 340973.20765 Residual 19 22.58470 1.18867 Uncorrected Total 21 681969.00000 (Corrected Total) 20 56224.95238 R squared = 1 - Residual SS / Corrected SS = .99960 Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper B0 100.14972863 .350807378 99.415480345 100.88397691 B1 .049919293 .000241815 .049413169 .050425416
Confidence interval untuk koefisien regresi tidak ada yang melalui titik nol sehingga dapat dikatakan koefisien regresi yang diperoleh significant pada Latihan 1. Rasio elektrifikasi
(Persentase rumah tangga yang berlangganan PLN)
selama 20 tahun di suatu daerah adalah sebagai berikut : 57.44
64.57
71.09
76.85
81.76
85.81
89.09
91.68
93.70
95.26
96.44
97.34
98.02
98.52
98.90
99.18
99.39
99.55
99.67
99.75
antara
rasio
Tentukan
model
yang
menggambarkan
hubungan
elektrifikasi dengan waktu 2. Tentukan model terbaik yang menggambarkan hubungan antara harapan hidup perempuan (y), persentase penduduk yang tinggal di perkotaan (x1), harapan hidup laki-laki (x2) dan pendapatan perkapita(x3) yang dinyatakan dalam model :
y 0 x11 x22 x33
58
Penyelesaian Persentase penduduk yang berlangganan PLN tidak mungkin lebih dari 100 %, dan akan mendekati 100 % untuk t yang sangat besar, salah satu model yang memenuhi sifat-sifat ini adalah :
yt
100 1 0 e t
Dengan bantuan SPSS
Nonlinear Regression Summary Statistics Dependent Variable Y Source DF Sum of Squares Mean Square Regression 2 164053.29912 82026.64956 Residual 18 1.799245E-04 9.995807E-06 Uncorrected Total 20 164053.29930 (Corrected Total) 19 3129.70530 R squared = 1 - Residual SS / Corrected SS = 1.00000 Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper B0 B1
.740850358 .299981460
.000067112 .000027927
59
.740709362 .299922787
.740991355 .300040132
1
Pemodelan y 0 x1 dilakukan dengan cara :
x22 x33 dengan bantuan SPSS dapat
Nonlinear Regression Summary Statistics Dependent Variable LIFEEXPF Source DF Sum of Squares Mean Square Regression 4 542255.95702 135563.98926 Residual 104 368.04298 3.53887 Uncorrected Total 108 542624.00000 (Corrected Total) 107 12023.07407 R squared = 1 - Residual SS / Corrected SS = .96939 Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper B0 1.266804442 .150462507 .968431646 1.565177239 B1 .010369463 .007318355 -.004143109 .024882036 B2 .934838552 .033915777 .867582293 1.002094811 B3 .009008014 .003101373 .002857875 .015158153
Confidence interval untuk memuat titik nol, sehingga koefisien ini tidak significant sehingga analisis regresi nonlinear perlu dilanjutkan dengan tanpa memasukkan variabel persentase penduduk yang tinggal diperkotaan.
60
Nonlinear Regression Summary Statistics Dependent Variable LIFEEXPF Source
DF
Sum of Squares
Mean Square 182724.68022 3.57509
Regression Residual Uncorrected Total
3 106 109
548174.04067 378.95933 548553.00000
(Corrected Total)
108
12070.34862
R squared = 1 - Residual SS / Corrected SS =
Parameter B0 B2 B3
Estimate 1.208565153 .953133843 .010483637
Asymptotic Std. Error .138090655 .031327433 .002967936
61
.96860
Asymptotic 95 % Confidence Interval Lower Upper .934786998 .891024160 .004599416
1.482343308 1.015243525 .016367859