Bab 2. MODEL REGRESI LINEAR SEDERHANA Oleh Bambang Juanda
Pengertian Model & Tujuan Pemodelan Perumusan masalah Model Model: Abstraksi realitas dlm pers matematika Model ekonometrika: model statistik yg mencakup error Y data aktual data dugaan Y
= = = =
f(X1, X2, ..., Xp) + error (2.1) dugaan + sisaan (simpangan) komp. sistematik + komp. non-sistematik f(X1, X2, ..., Xp) (2.2)
diharapkan unsur-unsur ketidak-teraturan nilai Y dapat dijelaskan oleh nilai-nilai dari peubah X1, X2, ..., dan Xp berdasarkan model dugaan dalam persamaan (2.2). Oleh karena itu, komponen sisaan diusahakan menjadi relatif kecil dibandingkan komponen dugaannya.
Deskripsi komponen error : 1. 2.
3.
4.
Kesalahan pengukuran dan proxy dari peubah respons Y maupun peubah penjelas X1 X1, X2 X2, ..., dan Xp Xp. Asumsi bentuk fungsi f yang salah. Mungkin Mungkin ada bentuk fungsi lainnya yang lebih cocok, linear maupun non--linear. non Omitted variables. variables. Peubah (variable (variable)) yang seharusnya dimasukkan ke dalam model, dikeluarkan karena alasan--alasan tertentu (misalnya penyederhanaan, alasan atau data sulit diperoleh dan lainlain-lain). Pengaruh faktorfaktor-faktor lain yang belum terpikirkan atau tidak dapat diramalkan (unpredictable (unpredictable effects). effects).
Model Regresi Linear Sederhana • Hubungan antar Peubah dlm Fungsi Linear dlm Parameter • Garis Lurus yg Paling Cocok dgn Data Model Populasi:
intersep Y Peubah Respons (dependent)
Slope
Error Acak
Yi 0 1 X i i
akibat; sulit atau mahal diukur
Model Regresi Contoh:
Peubah Penjelas (Independent) penyebab; mudah atau murah diukur
Yi b0 b1 X i ei
Model Regresi Linear Populasi Y
Yi b 0 b1X i e i
Nilai Pengamatan
ei = Error Acak b 0 b1 X i Y/X
m
Dugaan
i
X Nilai Pengamatan
Persamaan Regresi Linear Sederhana (Teladan)
Ingin mengkaji hubungan antara luas lantai toko (hasil pertanian) dengan total penjualan tahunannya. Data contoh utk 7 toko telah diperoleh. Tentukan persamaan garis lurus yg paling cocok dgn data tsb
Store
Square Feet
Annual Sales ($000)
1 2 3 4 5 6 7
1,726 1,542 2,816 5,555 1,292 2,208 1,313
3,681 3,395 6,653 9,543 3,318 5,563 3,760
Diagram Pencar (Scatter (Scatter Diagram) Diagram) Penjualan ($000)
12000 10000 8000 6000 4000 2000 0 0
1000
2000
3000
4000
5000
6000
Luas Lantai (Square Feet )
Mana peubah X dan mana peubah Y? Mengapa?
Model Regresi Linear Contoh
Y i b 0 b1 X i e i
Y i b 0 b1 X i
Yi
= Nilai dugaan Y utk pengamatan ke-i
Xi
= Nilai X utk pengamatan ke-i
b0
= Dugaan bagi koef intersep populasi 0 ; rata-rata Y jika X=0 Y b1 = Dugaan bagi koef slope populasi 1 ; X rata-rata perbedaan Y jika X berbeda 1 unit
Metode (Jumlah (Jumlah)) Kuadrat (Sisaan (Sisaan)) Terkecil: MKT atau Ordinary Least Squares Mencari dugaan koefisien yg menghasilkan jumlah kuadrat simpangan antara data aktual dgn data dugaan MINIMUM 2 ˆ ei ˆi Yi Yi , dan minimumkan q = ei shg i =1 n
n
n
n
i 1
i 1
i 1
n
n
X i X Yi Y n X iYi X i Yi b
i 1 n
2
X i X i 1
a Y bX
n X i i 1
2
Xi i 1
2
Persamaan Garis Lurus “Terbaik”
Y i b 0 b1 X i 1636 . 415 1 . 487 X i Predictor Constant X
Coef 1636.4 1.4866
S = 611.752
SE Coef 451.5 0.1650
R-Sq = 94.2%
T 3.62 9.01
P 0.015 0.000
R-Sq(adj) = 93.0%
Analysis of Variance Source Regression Residual Error Total
DF 1 5 6
SS 30380456 1871200 32251656
MS 30380456 374240
F 81.18
P 0.000
Grafik Garis Lurus Terbaik Penjualan ($000)
12000 10000 8000 6000 4000 2000 0 0
1000
2000
3000
4000
5000
Luas Lantai (Square Feet )
6000
Interpretasi Koefisien
Yi = 1636.415 +1.487Xi Interpretasi Nilai slope 1.487 (‘umumnya’): utk kenaikan 1 unit dlm X, diduga Y akan meningkat 1.487unit.
Interpretasi ‘paling tepat’ dlm kasus ini: • Rata2 perbedaan total penjualan antara toko yg luasnya berbeda 1 square feet adalah $1487 per th Implikasi dari dugaan slope (dgn asumsi tertentu): • Jika ukuran lantai toko naik 1 square feet, model tsb memprediksi bahwa total penjualan yg diharapkan akan meningkat $1487 per th.
Asumsi Model Regresi Linear Kenormalan & Kebebasan –
–
–
Nilai-nilai Y Menyebar Normal utk masingNilaimasingmasing nilai X; dgn E(Yi)=b0+b1 Xi dan Var(Yi) =2 utk semua i. (i) Sebaran Peluang Error adalah Normal, Bebas dan Identik dengan E(ei)=0 dan var(ei)=2 untuk semua i. (ii) Peubah X dan ei bebas
Homoskedastisitas (Ragam Konstan) Sisaan (Error (Error)) bebas
Ragam Error Sekitar Garis Regresi f(e)
Nilai-nilai y menyebar normal di sekitar garis regresi. Utk masing-masing nilai x, “sebaran” atau ragam disekitar garis regresi adalah sama.
Y X2
X1 X
Garis Regresi
Dugaan Galat baku (Standard (Standard Error) Error) n
ˆ S y / x
2 ˆ JKS (Yi Yi ) i 1
n2
n2
Simpangan Baku pengamatan-pengamatan disekitar garis regresi bi ~ N(i;2 ) bi
Jika asumsi tentang peubah acak I dipenuhi maka masing-masing dugaan koefisien akan menyebar normal dgn E(b0)=b0 dan E(b1)=b1 serta dugaan ragam:
b
0
2
2 1 2 X n n X i X 2 i 1
Sb 1
i
bi
SY / X n
( Xi X ) i 1
2
Teladan: Toko Hasil Pertanian Model Regresi yg diperoleh:
Data utk 7 Toko: Toko
Square Feet
Annual Sales ($000)
1 2 3 4 5 6 7
1,726 1,542 2,816 5,555 1,292 2,208 1,313
3,681 3,395 6,653 9,543 3,318 5,563 3,760
Yi = 1636.415 +1.487Xi Slope model ini adalah 1.487. •Apakah ada hubungan linear antara ukuran luas toko dgn total penjualan tahunannya? •Apakah total penjualan dpt diprediksi dari ukuran luas lantai tokonya?
Inferensia mengenai Slope: UjiUji-t
Yi 0 1 X i i • Uji-t utk Slope Populasi Ada Hubungan Linear antara X dgn Y ? • Hipotesis Nol dan Alternatif H0: b1 = 0 (X tidak dpt menjelaskan Y) H1: b1 0 (X dapat menjelaskan Y) • Statistik Uji:
b1 1 dimana Sb t S b1 1
dan db = n - 2
SY / X n
(Xi X ) i 1
2
Inferensia ttg Slope: Contoh UjiUji-t Statistik Uji-t :
H0: b1 = 0 H1: b1 0 a .05 db 7 - 2 = 5 Nilai--nilai kritis : Nilai Tolak H0 .025
t S tat
3.6244333 X V a ria b le 1 9.009944 In te rce p t
0.0151488 0.0002812
Keputusan:
Tolak H0
Tolak H0
Kesimpulan:
.025
-2.5706 0 2.5706
P-valu e
t
Terbukti ada hubungan. Makin luas ukuran Toko, makin tinggi penjualannya
Selang Kepercayaan Slope b1 ± tn-2 Sb1 Output Excel masalah Produce Stores L o w er 95%
475.810926 X V a ria b le 11.06249037 In te rce p t
Up p er 95%
2797.01853 1.91077694
95% yakin nilai slope antara 1.062 s/d 1.911. (Selang Kepercayaan ini tdk mencakup nilai 0) Kesimpulan: Ada hubungan linear yg nyata antara
penjualan tahunan dgn ukuran toko.
Taraf Nyata, a dan Daerah Penolakan b1 ~ N(I;2 ) b1
1
H0: 1 k H1: 1 < k H0: 1 k H1: 1 > k
Daerah Penolakan (ttk kritis)
0
a
b1
t
a 0
t
0
t
H0: 1 k H1: 1 k
a/2
Asumsi Model Regresi Linear: Peubah acak εi menyebar Normal, bebas dan identik utk i=1,.. ,n.
(i) ei ~ N(0;2 ) (ii) X fixed variable
0
ei
Bebas: Cov(εt, εs)= E(εtεs)=0 untuk t≠s. Homoskedastisitas: Var(εi)= E(εi2)=2.
Dugaan Koefisien i dengan OLS bersifat TAK BIAS dgn RAGAM MINIMUM (Best Linear Unbiased Estimator), dan menyebar Normal. Dugaan Rata2 Y utk Xi tertentu menyebar Normal
^ μ Y/X i ~ N(0+1Xi;2 ) μ
Dugaan Individu Y utk Xi ttt sama dgn dugaan ^ rata2nya, juga Y/Xi ~ N(0+1Xi;2 ) Yi menyebar Normal, dgn ragam lebih besar
Yi
^ μ Y/X
i
0 + 1X i
^
Y/X1
Dugaan Selang NilaiNilai-Nilai Ramalan Selang kepercayaan bagi mYX, Rataan Y utk Xi tertentu
Standard error dugaan
Yˆi t n 2 Syx nilai t dari tabel dgn db=n-2
Selang bervariasi sesuai jaraknya terhadap rataan, X.
2
1 ( Xi X ) n n ( X X )2 i i 1
Dugaan Selang Nilai-Nilai Ramalan Selang Kepercayaan bagi Dugaan Respons individu Yi utk Xi tertentu Tambahan 1 ini membuat selangnya lebih lebar dari SK bagi rataan Y,
µ
XY
Yˆi t n 2 Syx
2
1 ( Xi X ) 1 n n ( X X )2 i i 1
Dugaan Selang utk Nilai-nilai X yang Berbeda
Y
Selang Kepercayaan utk rataan Y
Selang Kepercayaan utk individu Yi
_ X
X Xi tertentu
Data for 7 Toko: Toko
Square Feet
Annual Sales ($000)
1 2 3 4 5 6 7
1,726 1,542 2,816 5,555 1,292 2,208 1,313
3,681 3,395 6,653 9,543 3,318 5,563 3,760
Dugalah penjualan tahunan utk suatu toko berukuran 2000 square feet. Model Regresi yg diperoleh:
Yi = 1636.415 +1.487Xi Yi = 1636.415 +1.487 (2000) Dugaan Penjualan = 4610.45 ($000) Seberapa besar kemungkinan kesalahan dari dugaan ini??
Tk Keyakinan bhw nilai sebenarnya berada dlm selang dugaan Selang kepercayaan (1-)100% bagi nilai sebenarnya
Dugaan Selang Ramalan Rataan Y Dugaan Selang Kepercayaan bagi mXY Tentukan SK 95% bagi rata-rata penjualan tahunan utk toko berukuran 2,000 square feet Dugaan Sales Yi = 1636.415 +1.487Xi = 4610.45 ($000) X = 2350.29
Yˆi t n 2 Syx
SYX = 611.75
1 ( X i X )2 n n ( X X )2 i i 1
tn-2 = t5 = 2.5706
= 4610.45 ± 980.97 SK bagi rataan Y
Dugaan Selang Ramalan Individu Y Selang kepercayaan utk dugaan Individu Y Tentukan SK 95% bagi penjualan tahunan utk suatu toko berukuran 2,000 square feet Ramalan Sales Yi = 1636.415 +1.487Xi = 4610.45 ($000) X = 2350.29
Yˆi t n 2 Syx
SYX = 611.75
tn-2 = t5 = 2.5706
1 ( X i X )2 1 n n ( X X )2 i i 1
= 4610.45 ± 1853.45 SK bagi individu Y
ANOVA: Analisis Ragam Apakah Keragaman Y dapat dijelaskan oleh (peubah X dlm) Model ?
Yi = b0 + b1 Xi + ei Yi = (Y - b1 X) + b1 Xi + ei (Yi – Y) = b1 (Xi – X) + ei (Yi – Y)2 = { b1 (Xi – X) + ei }2 (Yi – Y)2 = { b1 (Xi – X) + ei }2 (Yi – Y)2 = b12 (Xi – X)2 + ei2 JKT =
JKR
+ JKS
Ukuran Keragaman: Jumlah Kuadrat Y
JKS =(Yi - Yi )2
_ JKT = (Yi - Y)2
_ JKR = (Yi - Y)2
Xi
_ Y X
JKT = Jumlah Kuadrat Total •mengukur keragaman nilai-nilai Yi sekitar rataan Y
JKR = Jumlah Kuadrat Regresi •Menjelaskan keragaman yg dpt dianggap berasal dari hubungan antara X dgn Y (model regresi)
JKS = Jumlah Kuadrat Sisa (error) •Keragaman yg dpt dianggap berasal dari faktor-faktor selain hubungan antara X dgn Y
Tabel ANOVA
db Regresi Sisa Total
JKR
1 5 6
JKS
JK 30380456.12 1871199.595 32251655.71
JKT
Tabel Analisis Ragam (ANOVA) Untuk Regresi Linier Sederhana Sumber Keragaman
Regresi
Derajat Bebas 1
Jumlah Kuadrat (JK) JKR=
_ JKR = (Yi - Y)2 JKS =(Yi - Yi )2
_
JKT = (Yi - Y)2
Kuadrat Tengah (KT) KTR=JKR/1
( n 1) b 2 S x2 Galat
n-2
JKS= ( n 1)( S y2 b 2 S x2 )
Total
n-1
JKT=
( n 1) S y2
KTS=JKG/(n-2)
F-hitung KTR/KTG
Koefisien JKR Jumlah Kuadrat Regresi 2 = Determinasi: r = JKT
Jumlah Kuadrat Total
• Mengukur “proporsi keragaman” yg dijelaskan oleh (peubah bebas X dlm) model regresi • Sering secara “informal” sbg ukuran goodness-of-fit utk membandingkan validitas bbrp spesifikasi model • 94% keragaman total penjualan tahunan dpt dijelaskan oleh keragaman ukuran toko yg diukur dgn square footage Se = 611.752
R-Sq = 94.2%
R-Sq(adj) = 93.0%
Analysis of Variance Source Regression Residual Error Total
DF 1 5 6
SS 30380456 1871200 32251656
MS 30380456 374240
F 81.18
P 0.000
Koefisien Determinasi (r (r2) dan Korelasi (r ( r) Y r2 = 1, r = +1
Y r2 = 1, r = -1 ^=b +b X Y i
^=b +b X Y i 0 1 i
0
X Yr2 = .8, r = +0.9
X Y
^=b +b X Y i 0 1 i X
1 i
r2 = 0, r = 0 ^=b +b X Y i 0 1 i X
Inferensia mengenai Model: UjiUji-F Apakah Model dpt menYi 0 1 X i i jelaskan keragaman Y? • Hipotesis Statistik H0: b1 = 0 (model tdk dpt menjelaskan keragaman Y) H1: b1 0 (model dapat menjelaskan keragaman Y) • Statistik Uji: F = KTR/KTS
a = 0.05
~ F(p, n-1-p)
p: Jumlah peubah bebas
0
6.61
Analysis of Variance Source Regression Residual Error Total
DF 1 5 6
SS 30380456 1871200 32251656
MS 30380456 374240
F 81.18
P 0.000
F(1,5)
Analisis Sisaan (Residual (Residual)) Tujuan – –
Mengkaji Linearitas Evaluasi pelanggaran asumsi
Analisis Sisaan dgn Grafik –
Plot sisaan Vs. nilainilai-nilai Xi atau Yi (ei,Xi) atau (ei2 ,Xi) atau (ei /se ,Xi)
–
Studentized residuals: residuals: = ei/se Memungkinkan mempertimbangkan besaran sisaan (sisaan(sisaan-baku spt Normal baku)
Analisis Sisaan utk Linearitas
Not Linear e
Linear
e
X
X
Analisis Sisaan utk Homoskedastisitas
Heteroskedastisitas SR
Homoscedasticity SR
X
Menggunakan Standardized Residuals (SR)
X
Analisis Sisaan utk Kebebasan e
Tidak Bebas SR
Bebas
SR
X
X
Analisis Sisaan: Output Komputer Residual Plots for Y Normal Probability Plot of the Residuals Standardized Residual
99 90 Percent
Residuals Versus the Fitted Values
50 10 1 -3.0
-1.5 0.0 1.5 Standardized Residual
1 0 -1 -2
3.0
4000
Histogram of the Residuals Standardized Residual
Frequency
1.5 1.0 0.5 0.0 -1.0 -0.5 0.0 0.5 1.0 Standardized Residual
10000
Residuals Versus the Order of the Data
2.0
-1.5
6000 8000 Fitted Value
1.5
1 0 -1 -2 1
2
3 4 5 Observation Order
6
7
Statistik DurbinDurbin-Watson •Digunakan utk data time series guna mendeteksi autokorelasi (Sisaan dlm suatu periode berhubungan dgn sisaan dlm periode lain) •Mengukur Pelanggaran asumsi kebebasan e n
( ei ei 1 )
D
2
Seharusnya mendekati 2.
i 2
n
2 e i i 1
Jika tidak, kaji model utk autokorelasi.
Tipe Model Regresi Hubungan Linear Positif
Hubungan Tidak Linear
Hubungan Linear Negatif
Tidak Ada Hubungan