Analisis Regresi 2 Pokok Bahasan :
Memilih Persamaan Regresi Terbaik
TUJUAN INSTRUKSIONAL KHUSUS : Mahasiswa dapat memilih persamaan regresi terbaik dengan mencobakan berbagai prosedur.
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Analisis Regresi 2 Sub Pokok Bahasan : SEMUA KEMUNGKINAN REGRESI
(ALL POSSIBLE REGRESSION)
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
ALL POSSIBLE REGRESSION
Merupakan suatu prosedur statistik dalam pemilihan persamaan regresi terbaik. Ciri dari prosedur ini : • tidak praktis • dilakukan dengan bantuan komputer berkecepatan tinggi Tiga kriteria yang akan dievaluasi pada setiap persamaan regresi : 1. nilai R2 yang dicapai 2. nilai s2, Jumlah Kuadrat Sisa 3. statistik Cp Mallow Penentuan persamaan mana yang terbaik untuk dipilih dilakukan melalui evaluasi pola-pola yang teramati.
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Statistik R2
Definisi : R2 merupakan suatu ukuran mengenai seberapa baik model (persamaan regresi) dapat menjelaskan keragaman data. Semakin tinggi R2 maka model tersebut semakin baik menjelaskan keragaman data, sehingga tidak terlalu sulit menginterpretasikannya. Namun statistik R2 tidaklah cukup untuk memeriksa semua kemungkinan regresi.
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Penggunaan Statistik R2 pada ALL POSSIBLE REGRESSION 1.
2.
Kelompokkan persamaan-persamaan ke dalam kelompok yang dikelompokkan berdasarkan banyaknya peubah peramal yang ada dalam persamaan regresi contohnya : kelompok yang terdiri dari sejumlah persamaan regresi tanpa peubah peramal ( E(Y)=β0 ) kelompok yang terdiri dari sejumlah persamaan regresi dengan 1 peubah peramal ( E(Y)=β0+ β1x1 ) Sampai dengan kelompok yang terdiri dari sejumlah persamaan regresi dengan semua peubah peramal yang ada ( E(Y)=β0+…+ βixi ) Urutkan persamaan regresi dalam setiap kelompok menurut besarnya kuadrat koefisien korelasi berganda R2 yang dicapai.
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Penggunaan Statistik R2 pada ALL POSSIBLE REGRESSION 3.
4. 5.
Lanjutan…
Periksalah persamaan regresi urutan pertama yang terbesar dalam setiap kelompok dan lihatlah apakah ada suatu pola peubah yang konsisten dalam persamaan. Periksalah matriks korelasi data tersebut. Tentukan persamaan regresi terbaik yang cukup konsisten, bila diperlukan informasi lain mengenai sumber data yang diteliti dan peranan fisis peubahpeubah x.
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Penggunaan Kuadrat Tengah Sisa, S2 pada ALL POSSIBLE REGRESSION 1.
2.
3. 4. 5.
Evaluasi terhadap rata-rata kuadrat tengah sisa untuk setiap kelompok masing-masing dengan p peubah. (p = banyaknya parameter dalam model termasuk β0) Overfitting menggambarkan stabilisasi tipikal s2 dan mendekati nilai σ2 sebenarnya. Overfitting adalah pendugaan persamaan regresi yang melibatkan lebih banyak peubah peramal daripada yang dibutuhkan untuk memperoleh persamaan yang memuaskan. Melihat nilai yang sangat baik bagi σ2 melalui tebaran rata-rata s2(p) lawan p. Untuk setiap kelompok dilihat yang memiliki kuadrat tengah sisa yang paling kecil. Model yang memiliki nilai dugaan bagi ragam sisanya kecil dan mengandung sedikit mungkin peubah peramalnya maka prosedur ini telah menghasilkan suatu nilai dugaan “asimtotik” bagi σ2 (nilai dugaan terbaik bagi σ2).
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Statistik Cp Mallow • Ditemukan oleh C. L. Mallows
JKSp Cp (n 2 p) 2 s Ket : JKSp = Jumlah Kuadrat Sisa dari model yang mengandung P parameter p = banyak parameter dalam model, termasuk β0 s2 = Kuadrat Tengah Sisa dari persamaan terbesar yang dipostulatkan mengandung semua z (semua peubah peramal termasuk peubah boneka) Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Penggunaan Statistik Cp Mallow pada ALL POSSIBLE REGRESSION
Lanjutan…
Jika suatu persamaan sudah memadai, maka E(JKSp)=(n-p)σ2 dan diasumsikan E(s2)= σ2, kira-kira nisbah JKSp/s2 mempunyai nilai harapan (n-p)σ2/σ2=n-p sehingga kira-kira E(Cp)=p, jika modelnya memadai. Tebaran Cp lawan p akan memperlihatkan “modelmodel yang memadai” sebagai titik yang cukup dekat pada garis Cp=p. Persamaan regresi yang memiliki ketidakpastian model (persamaan yang berbias), akan menghasilkan titik di atas garis Cp=p.
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Penggunaan Statistik Cp Mallow pada ALL POSSIBLE REGRESSION
Lanjutan…
Nilai Cp setiap sebaran menunjukkan nilai duga bagi Jumlah Kuadrat Simpangan (galat ragam dan galat bias) persamaan regresi tersebut. Persamaan dengan parameter lebih banyak sehingga mempunyai kepasan lebih baik terhadap data (Cp≈p) namun simpangan total (galat ragam + galat bias) yang lebih besar dari model yang sebenarnya tidak diketahui.
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Analisis Regresi 2 Sub Pokok Bahasan : REGRESI BERTATAR
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
StepwiseRegression Regression Stepwise
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Regresi Bertatar Prosedur regresi bertatar (stepwise regression) merupakan prosedur statistik untuk menentukan peubah mana yang akan dimasukkan ke dalam persamaan regresi. Prosedur ini pada dasarnya merupakan kombinasi dari prosedur eliminasi langkah mundur (backward regression) dan prosedur eliminasi langkah maju (forward regression). Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Regresi Bertatar Kegunaan :
Prosedur regresi bertatar (stepwise regression) biasanya digunakan pada regresi linier berganda dengan banyak peubah bebas. Prosedur ini juga digunakan untuk mencari model regresi terbaik serta untuk mengatasi multikolinieritas. Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Regresi Bertatar :
Taraf Nyata ( )
Dalam regresi bertatar, terdapat dua taraf nyata ( ): untuk masuk untuk keluar. Taraf nyata yang digunakan dalam pengujian untuk memasukkan peubah bebas ke dalam persamaan regresi ialah untuk masuk Taraf nyata yang digunakan dalam pengujian untuk mengeluarkan peubah bebas ke dalam persamaan regresi ialah untuk keluar. Taraf nyata ditentukan oleh peneliti, namun disarankan untuk menggunakan nilai =0,05 atau =0,01, baik untuk uji masuk maupun untuk uji keluar. Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Regresi Bertatar Algoritma : a.
b.
Hitung korelasi setiap peubah bebas (X1, X2,…Xk) terhadap peubah tak bebas (Y). Peubah bebas dengan nilai korelasi tertinggi dimasukkan dalam model regresi (syarat uji F menunjukkan peubah ini berpengaruh nyata). Jika tidak nyata, berhenti dan mengambil model sebagai yang terbaik. Hitung korelasi parsial setiap peubah bebas tanpa menyertakan peubah bebas yang telah masuk model. Masukkan peubah bebas dengan korelasi parsial tertinggi ke dalam model
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Algoritma c.
d. e.
(lanjutan)
Setelah diuji, perhatikan peningkatan R2 dan nilai-F parsial/nilai-t parsial untuk kedua peubah yang ada di dalam persamaan. Nilai-F parsial terendah kemudian dibandingkan nilai-F tabel, dan peubah bebas tersebut dipertahankan (nilai-F parsial terendah > F tabel/ nilai-t parsial> nilai-t tabel) atau dikeluarkan dari persamaan tergantung pada apakah uji ini nyata atau tidak. Kembali ke langkah b Jika tidak ada peubah yang dapat dikeluarkan atau dimasukkan, proses akan terhenti.
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Contoh Kasus daerah
Berikut ini merupakan data penjualan, biaya promosi, jumlah outlet, laju penduduk, jumlah pesaing dan income masyarakat yang ada di 15 daerah di Indonesia :
sales
Promosi
Laju pendu outlet duk
Pesaing
income
JAKARTA
205
26
159
2
15
5.46
TANGERANG
206
28
164
1.5
16
2.43
BEKASI
254
35
198
1.75
19
2.56
BOGOR
246
31
184
1.64
17
3.55
BANDUNG
201
21
150
2.65
11
4.35
SEMARANG
291
49
208
1.45
24
3.65
SOLO
234
30
184
1.67
16
3.44
YOGYA
209
30
154
2.74
10
2.55
SURABAYA
204
24
149
1.35
14
4.79
PURWOKERTO
216
31
175
2.13
14
2.53
MADIUN
245
32
192
2.64
11
2.75
TUBAN
286
47
201
1.63
19
2.53
MALANG
312
54
248
2.53
21
3.51
KUDUS
265
40
166
2.54
18
2.81
PEKALONGAN
322
42
287
1.53
18
3.01
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Hasil Analisis
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
a Var iabl es Enter ed/Remo ved
Model 1
Variables Entered
Variables Remov ed
biay a promosi
.
jumlah outlet
.
2
a. Dependent Variable: penjualan
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Method St epwise (Criteria: Probabilit y -of F-to-enter <= .050, Probabilit y -of F-to-remo v e >= . 100). St epwise (Criteria: Probabilit y -of F-to-enter <= .050, Probabilit y -of F-to-remo v e >= . 100).
Model Summaryc Model 1 2
R .916a .976b
R Square .839 .952
Adjusted R Square .826 .944
Std. Error of the Est imat e 17.127 9.757
a. Predictors: (Constant), biay a promosi b. Predictors: (Constant), biay a promosi, jumlah outlet c. Dependent Variable: penjualan
ANOVAc Model 1
2
Regression Residual Total Regression Residual Total
Sum of Squares 19850.334 3813.266 23663.600 22521.299 1142.301 23663.600
df 1 13 14 2 12 14
Mean Square 19850.334 293.328
F 67.673
Sig. .000a
11260.649 95.192
118.294
.000b
a. Predictors: (Constant), biay a promosi b. Predictors: (Constant), biay a promosi, jumlah out let c. Dependent Variable: penjualan
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Coefficientsa
Model 1 2
(Constant) biay a promosi (Constant) biay a promosi jumlah outlet
Unstandardized Coeff icients B Std. Error 111.523 16.982 3.891 .473 64.639 13.112 2.342 .398 .535 .101
Standardized Coeff icients Beta .916 .551 .496
t 6.567 8.226 4.930 5.892 5.297
Sig. .000 .000 .000 .000 .000
Collinearity Statistics Tolerance VIF 1.000
1.000
.459 .459
2.177 2.177
a. Dependent Variable: penjualan
Excluded Variablesc
Model 1
2
jumlah outlet laju pertambahan penduduk (%) jumlah pesaing tingkat pendapatan konsumen laju pertambahan penduduk (%) jumlah pesaing tingkat pendapatan konsumen
Collinearity Statistics Minimum Tolerance VIF Tolerance .459 2.177 .459
t 5.297
Sig. .000
Partial Correlation .837
-.087
-.769
.457
-.217
.996
1.004
.996
.041a
.214
.834
.062
.367
2.727
.367
.212
.835
.061
.885
1.130
.885
-.011
-.165
.872
-.050
.945
1.058
.436
.056b
.520
.613
.155
.366
2.729
.251
.393
.702
.118
.885
1.130
.434
Beta In .496a a
a
.026
b
b
.027
a. Predictors in the Model: (Constant), biay a promosi b. Predictors in the Model: (Constant), biay a promosi, jumlah outlet c. Dependent Variable: penjualan
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Kesimpulan Berdasarkan indikator pemilihan model terbaik, R, R2, R2 adjusted, dan s (standar error) model yang kedua merupakan model yang terbaik karena R, R2, R2 adjusted yang diperoleh lebih besar dibandingkan dengan model pertama. Nilai s yang dihasilkan lebih kecil dibandingkan dengan model pertama.
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Prosedur eliminasi langkah mundur
(the backward elimination procedure)
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Penentuan peubah penjelas dalam model regresi (Draper dan Smith): 1. tujuan peramalan nilai ramalan yang terandalkan memasukkan banyak peubah penjelas. 2. banyak peubah diteliti biaya operasi tinggi digunakan sedikit peubah penjelas. Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Memperoleh nilai peramalan yang terandalkan --> membutuhkan sebanyak mungkin peubah penjelas Tingkat representatif Peramalan
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Banyak peubah penjelas biaya operasional tinggi.
Biaya Operasional penelitian
1
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
2
3
n
Mencari persamaan regresi terbaik (sesedikit mungkin peubah penjelas tanpa mengurangi maksud dari tujuan penelitian) Sesedikit mungkin peubah penjelas
Minimalisir Biaya
Prosedur eliminasi langkah mundur
(the backward elimination procedure)
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Persamaan Regresi Representatif
Pencapaian Tujuan Penelitian
Proses menentukan persamaan regresi terbaik dimulai dengan: regresi terbesar dengan menggunakan semua peubah, dan secara bertahap mengurangi banyaknya peubah di dalam persamaan sampai suatu keputusan dicapai untuk menggunakan persamaan yang diperoleh
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Kita bisa melihat persamaan regresi yang mengandung semua peubah penjelas. Lebih menghemat waktu dibandingkan dengan metode “semua kemungkinan regresi”
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Sekali suatu peubah dihilangkan, maka dia tak tersedia untuk bisa dipertimbangkan lagi.
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Algoritma regresi terbesar dengan semua kemungkinan peubah Bertahap…
mengurangi banyaknya peubah diperoleh persamaan regresi terbaik Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Regresi dengan semua (n) peubah penjelas
Regresi dengan (n-1) peubah penjelas
Buang Peubah Penjelas (F-parsial terkecil)
F-Parsial masing2 Peubah penjelas
Persamaan Regresi Terbaik
F-Parsial Peubah penjelas terkecil If (F-Parsial >= FTabel)
If (F-Parsial < FTabel)
Bandingkan F-parsial terkecil dgn F-Tabel
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Regresi dengan semua (n) peubah penjelas Regresi dengan (n-1) peubah penjelas
Buang Peubah Penjelas (P-value terbesar)
If (P-value > Alpha-toremove)
P-value masing2 Peubah penjelas
P-value Peubah penjelas terbesar
Bandingkan P-value terbesar dgn Alpha-toremove
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Persamaan Regresi Terbaik
If (P-value <= Alphato-remove)
Suatu penelitian dilakukan untuk mengetahui besarnya pengaruh peubah penjelas yakni x1, x2, x3, x4 terhadap peubah respon yakni Y. Didapat data seperti di samping ini.
Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB
Y
X1
X2
X3
X4
10
45
1
12
1
12
58
2
16
2
15
59
4
5
4
16
61
5
8
5
17
66
6
8
6
19
67
7
64
7
25
68
8
5
8
26
69
9
29
9
28
72
11
25
12
34
73
15
34
15
36
76
18
26
18
49
78
19
12
19
56
79
20
5
20
59
81
24
6
24
73
82
26
4
26
75
83
28
15
28
76
86
29
24
30
82
87
30
29
31
84
94
33
24
33
88
98
45
23
44
Penyelesaian.. Perhatikan output dari
untuk kasus di atas: Interpretasi: Lihat step 1 P-value terbesar (pada x1) Bandingkan dengan nilai α=0,1
(P-value=0,915) > (α=0,1) -
Eliminasi x1
Lihat step 2 P-value terbesar (pada x3) Bandingkan dengan nilai α=0,1
(P-value=0,093) < (α=0,1) Model Regresi Terbaik Y duga =7,894 - 6,4X2 - 0.153 X3 + 8,6 X4 Itasia Dina S & Dian K, Dep Statistika FMIPA -IPB