MAKALAH ANALISIS REGRESI TERAPAN REGRESI ROBUST
TIAR INDARTO G152144051
PROGRAM STUDI STATISTIKA TERAPAN SEKOLAH PASCA SARJANA 1
INSTITUT PERTANIAN BOGOR 2016 DAFTAR ISI DAFTAR ISI
ii
A. PENDAHULUAN 1. LATAR BELAKANG 2. TUJUAN B. TINJAUAN PUSTAKA 1. REGRESI LINEAR BERGANDA 2. OLS UNTUK REGRESI LINEAR BERGANDA 3. UJI ASUMSI MODEL REGRESI LINEAR a. UJI NORMALITAS b. UJI MULTIKOLINEARITAS c. UJI HOMOSKEDASITAS9 d. UJI AUTOKORELASI 4. PENCILAN (OUTLIER) a. STANDARDIZED RESIDUAL b. DELETED (STUDENTIZED RESIDUAL) c. DFITS 5. REGRESI ROBUST a. Estimasi M
1 1 2 2 2 3 3 3 3 3 3 4 4 4 5 5 5
b. Estimasi Least Trimmed Square (LTS)
9
c. Estimasi S
9
d. Estimasi MM
10
e. Estimasi LMS
10
f. Estimasi W
11
g. Estimasi L
11
h. Estimasi R
11
C. PEMBAHASAN 1. PENERAPAN ESTIMASI M a. Estimasi M (Huber) b. Estimasi M (Tukey Bisquare) 2. PENERAPAN ESTIMASI LTS D. DAFTAR PUSTAKA
12 12 12 18 20 23
A. PENDAHULUAN 1. LATAR BELAKANG Analisis terhadap hubungan antara dua variabel atau lebih menggunakan sebuah persamaan matematik (model regresi) adalah analisis regresi. Dalam model
regresi
terdapat
dua
variabel
bebas/dependent/respon/akibat)
dan 2
yakni
variabel
variabel
Y X
(variabel
tak
(variabel
bebas/independent/penjelas/sebab). Dalam analisis regresi dapat dibagi menjadi regresi linear sederhana, regresi linear berganda dan regresi non linear. Terdapat beranekaragam metode yang dapat digunakan untuk melihat hubungan antara Y dengan X seperti metode kuadrat terkecil (ordinary least square), metode kemungkinan maksimum (maximum likelihood method), metode bootstrap, metode kuadrat terkecil terboboti (weighted least square method), dan lain – lain (Bambang, 2009). Metode yang familiar digunakan adalah metode kuadrat terkecil/ordinary Least Square (OLS), karena mudah penggunaanya. Ada beberapa asumsi yang harus dipenuhi dalam OLS agar hasil estimasinya bersifat BLUE (best linear unbiased estimator), yaitu : (1)
E ( ε i ) =0
sisaan menyebar normal dengan
dan
var ( ε i )=σ 2 , (2) sisaan
memiliki ragam yang homogeny (homoskedasitas), (3) sisaan menyebar bebas
yakni
cov ( ε i , ε j )=E ( ε i , ε j ) =0
(serial
independent).
Namun
OLS
memiliki kekurangan yakni sensitive terhadap pencilan/outlier. karena apabila terdapat outlier maka akan terjadi penyimpangan pendugaan OLS atau terjadi bias
estimasi.
Sehingga
model
regresi
dapat
memberikan
gambaran
hubungan yang jauh dari keadaan sebenarnya. Untuk mengatasi hal tersebut dibutuhkan suatu penduga robust (kekar) yang mempunyai kemampuan mendeteksi pencilan sekaligus menyesuaikan dugaan parameter regresi, sehingga memberikan hasil yang resistant (stabil). Regresi robust menjadi alternatif solusi dalam mengatasi hal tersebut. Regresi kekar terhadap outlier tersebut diperkenalkan Andrews (1972). Regresi robust yang baik adalah yang sebanding dengan OLS tanpa outlier. Suatu estimator semakin robust terhadap outlier ketika memiliki efisiensi dan breakdown point yang tinggi. Kemungkinan tertinggi breakdown point untuk sebuah estimator adalah 50%. Ada 8 prosedur estimasi parameter dalam regresi robust, antara lain: a. Estimasi M b. Estimasi Least Trimmed Square (LTS) c. Estimasi S d. Estimasi MM e. Estimasi LMS f.
Estimasi W
g. Estimasi L 2
h. Estimasi R Masalah yang akan dibahas dalam tulisan makalah ini adalah pengujian ketidakpenuhan asumsi klasik, cara pendeteksian outlier dan pendugaan model pada data penjualan rokok tahun 2012 di yogyakarta dengan menggunakan metode regresi robust hingga didapat persamaan model terbaiknya. 2. TUJUAN Tujuan dari penulisan makalah ini adalah untuk menggunakan regresi robust estimasi M IRLS dengan fungsi pembobot Huber dan Bisquare Tukey dan regresi robust estimasi LTS pada data yang terdapat outlier. B. TINJAUAN PUSTAKA 1. REGRESI LINEAR BERGANDA Menurut Montgomery and Peck (1992), secara umum peubah tak bebas y kemungkinan berhubungan dengan k peubah bebas. Model ini :
yi
= β0 + β1 xi1 + β2 xi2 + … + βk xik + εi
yi
adalah peubah tak bebas pada pengamatan ke-i, xi1, xi2, …, xik adalah
(1)
nilai peubah bebas pada pengamatan ke-i dan parameter ke-k, β0, β1, … , βk adalah parameter regresi, dan εi adalah error pengamatan ke-i. 2. OLS UNTUK REGRESI LINEAR BERGANDA Dalam kasus k-peubah bebas, penaksir metode kuadrat terkecil diperoleh dengan meminimumkan :
yi ¿ ¿
n
∑ ε2i i=1
=
n
∑¿
)2
(2)
i=1
n
di mana
∑ ε2i i=1
adalah jumlah kuadrat sisaan. Dalam notasi skalar, metode
n
kuadrat terkecil tercapai dalam menduga β0, β1, … , βk sehingga
∑ ε2i i=1
sekecil mungkin. Ini dicapai dengan menurunkan persamaan (2) secara parsial terhadap
^β
,
0
^β
,…,
1
^β
k
dengan nol.
3
dan menyamakan hasil yang diperoleh
Berdasarkan Montgomery and Peck (1992), dalam notasi matriks, metode
ε' ε .
kuadrat terkecil sama dengan meminimumkan Dengan persamaan :
ε = y−Xβ
(3)
Oleh karena itu,
ε ' ε =( y−Xβ )' ( y−Xβ) ¿ y ' y−2 β ' X ' y + β ' X ' Xβ β' X' y
adalah
(β ' X ' y)' = y ' Xβ
matrik
(4) 1
x
1,
atau
suatu
skalar.
Transposenya
adalah skalar. Pendugaan metode kuadrat terkecil harus
memenuhi : n
∂ ∑ ε 2i i=1
=
∂β
∂ ε' ε =−2 X ' y+ 2 X ' X ^β ∂β
(5)
Bila disederhanakan menjadi :
−2 X y +2 X X ^β=0 '
'
^ 2 X ' X β=2 X' y X ' X ^β=X ' y
(6)
Untuk menyelesaikan persamaan (6) kalikan keduannya dengan invers dari
X ' X . jadi pendugaan kuadrat terkecil dari ^β=( X ' X)−1 X ' y
β
adalah (7)
3. UJI ASUMSI MODEL REGRESI LINEAR a. UJI NORMALITAS Pada regresi linier klasik diasumsikan bahwa tiap εi didistribusikan normal dengan lambang :
ε N (0, σ 2 ) . Uji statistik yang dapat digunakan untuk
menguji normalitas residual adalah uji statistik Kolmogorov-Smirnov (K-S). b. UJI MULTIKOLINIERITAS Menurut Montgomery and Peck (1992), untuk mendeteksi ada atau tidaknya multikolinieritas di dalam model regresi, dapat dilihat pada nilai VIF (variance inflation factors). 4
1 (1−R2j )
VIFj =
R2j
dengan
(8) adalah
nilai
koefisien
determinasi
yang
diperoleh
dari
meregresikan peubah bebas xj dengan peubah bebas lainnya. Nilai VIF > 10 menunjukkan multikolinieritas yang kuat. c. UJI HOMOSKEDASITAS Untuk menguji ada tidaknya kesamaan
variansi
residual
dari
satu
pengamatan ke pengamatan yang lain. Uji ini dapat menggunakan Scatter plot. Sumbu X adalah nilai-nilai prediksi ZPRED = Regression Standartdized Predicted Value. Jika garfik yang diperoleh menunjukkan adanya pola tertentu dari titik-titik yang ada, dikatakan terjadinya heteroskedastisitas. Akan tetapi, jika
tidak
membentuk
pola
tertentu,
dikatakan
tidak
terjadi
heteroskedastisitas. d. UJI AUTOKORELASI
Menurut Gujarati (1997), dengan menggunakan lambing : E( ε i , ε j ) = 0 ; i ≠ j. Secara sederhana dapat dikatakan model klasik mengasumsikan bahwa error yang berhubungan dengan pengamatan tidak dipengaruhi oleh error yang berhubungan dengan pengamatan lain yang manapun. Salah satu cara yang dapat digunakan untuk mendeteksi masalah autokorelasi adalah dengan uji Durbin Watson. Dengan terpenuhi semua asumsi regresi linier di atas, model yang dihasilkan dianggap baik untuk melihat pengaruh peubah-peubah bebas terhadap peubah-peubah tak bebas. Selanjutya, model dapat digunakan sebagai penduga. 4. PENCILAN (OUTLIER) Menurut Montgomery and Peck (1992), pencilan adalah suatu pengamatan yang ekstrim. Residual yang nilai mutlaknya jauh lebih besar daripada yang lain dan bisa jadi terletak tiga atau empat simpangan baku dari rata-ratanya adalah yang menyebabkan data sebagai pencilan. Pencilan adalah titik-titik data yang tidak setipe dengan titik data yang lainnya. Menurut
Draper
and
Smith
(1992),
adakalanya
pencilan
memberikan
informasi yang tidak bisa diberikan oleh titik data lainnya. Berdasarkan Montgomery and Peck (1992), sebagai kaidah umum, pencilan baru ditolak jika setelah ditelusuri ternyata merupakan akibat dari kesalahan-kesalahan seperti
memasukkan
ukuran
atau
anlisis
yang
salah,
ketidaktepatan
pencatatan data, dan terjadi kerusakan alat pengukuran. Bila ternyata bukan 5
akibat dari kesalahan-kesalahan semacam itu, penyelidikan yang seksama harus dilakukan. Menghapus data tersebut untuk “memperbaiki persamaan yang cocok” dapat berbahaya, tindakan tersebut dapat menimbulkan kesalahan ketelitian dalam mengestimasi atau memprediksi. Ryan (1997) mengelompokkan pencilan dalam berbagai tipe : a. Pencilan-x, yakni pengamatan yang hanya menyimpang pada sumbu x saja. Pengamatan ini disebut juga sebagai titik leverage. b. Pencilan-y, yakni pengamatan yang menyimpang hanya karena arah peubah tak bebasnya. c. Pencilan-x,y, yaitu pengamatan yang menyimpang pada keduanya yakni pada peubah x dan peubah y. Untuk mendeteksi adanya pencilan dapat dilakukan dengan beberapa metode sebagai berikut: a. Standardized residual Standardized residual merupakan nilai residual yang distandarkan. Nilai ini digunakan untuk mendeteksi pencilan. Jika | r i | > 2 atau | r i | > 3, maka data pada pengamatan ke-i merupakan pencilan y. b. Deleted (Studentized Residual) Deleted Studentized Residual merupakan nilai-nilai standardized residual dimana observasi ke-i dihilangkan. Nilai ini digunakan untuk mendeteksi ada atau tidaknya pencilan. Data dikatakan pencilan jika t i > ( α, n-p) dengan p adalah banyak parameter. c. DFITS DFITS yaitu mengukur pengaruh suatu pengamatan terhadap nilai dengan respon ketika suatu pengamatan tidak disertakan dalam analisis. Nilai ini digunakan untuk mendeteksi pengaruh pengamatan ke-i terhadap nilai
dirinya sendiri. Jika nilai | DFITS | > 2
√
p n
^y
dengan p menyatakan jumlah
parameter dalam model bersangkutan maka hal ini merupakan pengamatan berpengaruh.
5. REGRESI ROBUST Menurut Chen (2002), regresi robust adalah sebuah alat yang penting untuk menganalisis data yang terkontaminasi pencilan. Tujuan utama regresi robust adalah untuk memberikan hasil yang stabil karena kehadiran pencilan. a. Estimasi M Berikut adalah diagram alur pembentukan model estimasi M : 6
Mulai Tidak konvergen
Estimasi parameter b dengan OLS ya Menghitung fungsi pembobot melalui ( )
Mencari estimasi baru dengan weighted least square. ya Model estimasi M (Huber dan Tukey Bisquare) Bisquare) revisi selesai
Paramater () konvergen ?
Tidak terpenuhi Pengujian signifikansi parameter
Estimasi M diperkenalkan oleh Huber pada tahun 1973 dan ini merupakan pendekatan yang paling sederhana baik secara teori maupun perhitungan. Diketahui:
y i=α + β 1 x i 1+ β 2 xi 2 +…+ β k x ik + ε i
(9)
yi xi' i (10) Untuk observasi ke-i dari n observasi, model yang sesuai adalah,
y i=a+ b1 x i 1 +b2 xi 2 +…+ bk xik +e i
(11)
y i xi' b ei (12) Estimator M umumnya dengan meminimumkan fungsi objektifnya adalah,
7
n
n
i=1
i=1
∑ ρ ( e i )=∑ ρ( y i−x 'i b)
(13)
Dimana fungsi ρ memberikan kontribusi untuk setiap residual dari untuk fungsi objektifnya. Misalkan
ψ=ρ '
dengan
ψ
merupakan turunan dari ρ. Untuk
meminimumkan fungsi objektif, maka fungsi objektif akan diturunkan terhadap
b
dan hasilnya persamaan, sebagai berikut :
n
∑ ψ ( y i−x 'i b ) x 'i=0
(14)
i=1
ψ merupakan fungsi influence yang digunakan dalam memperoleh ¿
ψ (ei ) w i= ¿ ei
bobot (weight). Dengan fungsi pembobot
e ¿i
dimana
merupakan residual yang distandarkan, maka persamaannya menjadi : n
∑ wi ( y i−x 'i b ) x 'i=0
(15)
i=1
X T WXb=X T Wy , bentuk matrik
Apabila dinotasikan dalam matrik :
tersebut dinamakan least square dengan penimbang (weighted least
square) yang akan meminimalkan
y i−^ yi ¿ ¿ wi ¿ . Weighted least square dapat n
∑¿ i=1
digunakan
untuk
mendapatkan
estimasi
M,
estimasi
parameternya
menjadi : −1
b=( X T WX ) X T Wy
(16)
Penimbang tergantung pada residual, residual tergantung pada koefisiean yang
diestimasi,
dan
koefisien
yang
diestimasi
tergantung
pada
penimbang. Untuk menyelesaikan masalah tersebut dilakukan proses
8
iterasi yang disebut sebagai Iteratively Reweighted Least-Square (IRLS). Langkah – langkahnya sebagai berikut : 1) Pilih estimasi b(0), seperti estimasi least-squares. 2) Pada setiap iterasi
l , hitung residuals eil-1 dan asosiasikan
penimbang wi(l-1) =w[ei(l-1) ] dari iterasi sebelumnya. 3) Penyelesaian untuk estimasi penimbang baru.
b =[ X ' W (t)
wl 1
dengan adalah
(l−1)
wi ,l 1
−1
X ] X 'W
(l −1)
y
(17)
merupakan matrik diagonal dengan elemen diagonalnya . Sehingga estimasi parameter pada iterasi pertama ( l =
wi ,0 1 ) menggunakan ei,0 dan . 4) Langkah 2 dan 3 diulangi sampai koefisien yang diestimasi konvergen. Tiga bentuk estimasi M diantaranya estimasi least square, Huber dan Tukey bisquare (biweight). Bentuk fungsi objektif, fungsi influence dan fungsi pembobot untuk ketiga jenis estimasi M sebagai berikut : Metode Fungsi objektif
Least
Huber
Square
LS (e ) (e ) *
* 2 i
influenc
LS (e ) e *
* i
e Fungsi Pembob ot
wLS (e * ) 1
(ei* ) 2 / 2 , untuk | ei* | r
k2 6
H (e )
B (e )
*
*
* 2 * r | ei | r / 2 , untuk | ei | r
ei*
Fungsi
Tukey Bisquare
untuk
ei* r
H e r untuk e * r i * r untuk ei r *
1 untuk
wH e *
r / e
* i
untuk
ei* r e r * i
1 1
ei* r
3
2
r 2 / 6 untuk
0 untuk
* ei 1
B e *
ei* r
untuk
1
0 untuk
wB e *
ei* r
2
ei* r
2
2
ei* r
untuk
ei* r
ei* r
2
untuk
ei* r
ei* r
Tabel 1 Fungsi objektif, fungsi influence, dan fungsi pembobot pada estimasi M (Sumber : Fox (2002), Mongomery (1992))
Nilai r pada fungsi objektif, influence dan pembobot adalah tunning constant. Kuzmic et.al (2004) menyebutkan estimasi M Huber efektif digunakan pada α = 5% dengan r=1,345, sedangkan estimasi M Tukey Bisquare dengan r=4,685. Kelly (2008) menyatakan permasalahan dalam estimasi regresi robust adalah perlu dilakukan pemilihan tunning constant agar estimasi yang diperoleh lebih spesifik dan memimimumkan jumlah kuadrat residual. Apabila menurunkan tunning constant akan menaikan 9
pembobot terhadap residual yang besar, sedangkan menaikkan tunning constant akan menurunkan pembobot terhadap residual yang besar. Semakin besar r maka estimasi robust akan mendekati least square. Setelah estimasi telah didapatkan, maka langkah selanjutnya adalah melakukan pengujian parameter dalam model regresi bertujuan untuk mengetahui apakah parameter tersebut telah menunjukkan hubungan yang nyata antara variabel prediktor dan variabel respon. Disamping itu juga untuk mengetahui kelayakan parameter dalam menerangkan model. Terdapat dua tahap pengujian yaitu uji serentak dan uji parsial (individu). 1) Uji Serentak Uji serentak merupakan pengujian secara bersama semua parameter dalam model regresi. Hipotesis yang digunakan adalah sebagai berikut : H0 : 0 = 1 = ... = j = 0 H1 : paling tidak ada satu j 0, j = 0, 1, ... k Statistik uji yang digunakan untuk OLS adalah
y ) 2 /( k ) i 1 n 2 ( yi yˆ i ) /( n k 1) i 1 n
( yˆ
Fhitung =
MSR MSE
=
i
Sedangkan untuk Weighted least squares (WLS)
MSRweighted Fhitung(weighted) =
MSE weighted
y ) 2 /( k ) i 1 n 2 wi ( yi yˆ i ) /( n k 1) i 1 n
w ( yˆ i
=
i
(18)
Ket : MSR : Mean Square Regression MSE : Mean Square Error Pengambilan keputusan adalah apabila F hitung F
(k, n-k-1)
dengan k adalah
parameter maka H0 ditolak pada tingkat signifikansi , artinya paling sedikit ada satu j yang tidak sama dengan nol. Pengambilan keputusan juga dapat melalui P-value dimana H0 ditolak jika P-value < α. 2) Uji Parsial 10
Uji parsial merupakan pengujian secara individu parameter dalam model regresi yang bertujuan untuk mengetahui parameter model regresi telah signifikan atau tidak. Hipotesis yang digunakan adalah sebagai berikut : H0 : j = 0 H1 : j 0, j = 0, 1, 2, ..., k Statistik uji yang digunakan untuk metode OLS adalah t hitung
bj S (b j )
(19)
Dengan S 2 (b j ) ( X T X ) 1 MSE
(20)
Sedangkan untuk metode Weighted least squares (WLS) t hitung( weighted )
dengan
b j ( weighted ) S (b j ( weighted) )
S 2 (b j ( weighted ) )
(21)
merupakan diagonal matrik kovarian.
Pengambilan keputusannya yaitu apabila |t hitung| t(1-/2,
n-k-1)
dengan k
adalah parameter maka H0 ditolak pada tingkat signifikansi , artinya ada pengaruh xi terhadap model. Pengambilan keputusan juga dapat melalui Pvalue, dimana H0 ditolak jika P-value < α. b. Estimasi Least Trimmed Square (LTS) Langkah – langkah yang dilakukan dalam mengestimasi parameter regresi robust dengan estimasi LTS, sebagai berikut : 2
1) Menghitung kuadrat residual ( e i ) urutkan dari yan terkecil sampai
terbesar dan menghitung h dimana
2) Menghitung
E
2 LTS
n+ p+ 1 . 2
h
=∑ e 2i . i=1
^β baru(i)
3) Melakukan estimasi parameter 4) Menentukan kuadrat residual 5) Menghitung
h=
2
ei
E2LTS(baru) . 11
dari
dari
hbaru(i)
hbaru(i)
pengamatan.
pengamatan.
6) Melakukan iterasi dari langkah 4 s.d. 5 sampai mendapatkan fungsi objektif (h) yang terkecil dan konvergen ke nol. 7) Kemudian lakukan uji hipotesis untuk mengetahui apakah variabel bebas mempunyai pengaruh yang signifikan terhadapa variabel tak bebas. c. Estimasi S Langkah – langkah yang dilakukan dalam mengestimasi parameter regresi robust dengan metode estimasi S, sebagai berikut : 1) Menghitung nilai residual yakni
e i= y i− ^y i
2) Menghitung standar deviasi sisaan
median∨ei −median ( e i) ∨
{√
σ^ i= ¿ Dengan
¿ , iterasi=1 0.6745
n
1 wi e2i ,iterasi> 1 ∑ nk i=1
k =0.199
3) untuk mendapatkan nilai
ui=
4) Menghitung nilai pembobot
ei σ^ s
{
2
[ ( )]
ui 2 ψ (u i) ,|ui|≤ 1.547 w i= = 1− 1.547 ui 0 ,|ui|≥1.547
5) Menghitung nilai koefisien parameter penduga 6) Dari koefisien parameter penduga yang
^β=[ X ' WX ]−1 X ' Wy didapat kembali ulangi
langkah 1 s.d. 4 sampai didapatkan kekonvergenan. 7) Kemudian lakukan uji hipotesis untuk mengetahui apakah variabel bebas mempunyai pengaruh yang signifikan terhadapa variabel tak bebas. d. Estimasi MM Estimasi MM merupakan gabungan dari estimasi S dan estimasi M. Prosedur estimasi ini adalah dengan mengestimasi parameter regresi menggunakan estimasi S yang meminimumkan skala sisaan dari estimasi M dan dilajutkan dengan estimasi M. langkah-langkahnya sebagai berikut : 1) Menghitung nilai sisaan
e i= y i− ^y i
12
dari estimasi S
2) Menghitung nilai
σ^ s
3) Menghitung nilai
ui=
ei σ^ s
4) Menghitung pembobot
[{ ( ) ]
ui w i= 1− 4.685 ¿0
2 2
,|ui|≤ 4.685 ¿ ,|u i|≥ 4.685 ^β
5) Menghitung parameter pembobot
estimasi MM dengan metode WLS dengan
0
wi
6) Mengulangi langkah 2 s.d. 4 sampai diperoleh nilai
^β
estimasi MM
yang konvergen. 7) Kemudian lakukan uji hipotesis untuk mengetahui apakah variabel bebas mempunyai pengaruh yang signifikan terhadapa variabel tak bebas. e. Estimasi LMS LMS (Least Median of Square) didefenisikan sebagai vector-p,
θ^ LMS=argmin Q LMS (θ) θ
Dimana,
Q LMS (θ)=r 2(h) 2 r 2(1) < r 2(2) <…< r(n)
2
T
2
adalah
r i =( y i−x i θ ) , i=1, … ,n ,
error
h
(residual)
kuadrat
didefenisikan
sebagai
yang
diurutkan,
interval
dari
n 3 n+ p+1 +1 ≤ h ≤ . Nilai breakdown untuk estimasi LMS juga bernilai 2 4 n−h . n
Namun,
estimasi
LTS
mempunyai
beberapa
keunggulan
dibandingkan dengan estimasi LMS. Fungsi objektifnya “lebih halus”, membuat LTS lebih stabil (kecuali sensitive untuk efek local) daripada estimasi LMS. Efisensi statistiknya lebih baik karena estimasi LTS normal secara asymptotic dimana estimasi LMS memiliki tingkat konvergensi yang lebih rendah.
13
f. Estimasi W Estimasi W mewakili bentuk alternative dari estimasi M. Masing-masing estimasi
W
mempunyai
karakteristik
fungsi
penimbang
W(.)
menggambarkan pentingnya tiap sample dalam kontribusinya pada estimasi T, yang dihubungkan pada estimasi M yang bersesuaian mengikuti
ψ ( r )=W (r )r .
Parameter
optimal
diperoleh
dengan
menyelesaikan, n
∑ W (r j )r j=0 j=1
Yang sama seperti persamaan untuk masalah regresi Weighted Least Square. W-Estimator menawarkan prosedur penghitungan iterative MEstimator yang sederhana dan menyenangkan, dimana persamaan WEstimator dalam iterasi sekarang diselesaikan dengan perbaikan nilai penimbang,
W (r j) ,
pada
iterasi
sebelumya.
Prosedur
untuk
memperoleh hasil merujuk pada Iterative Reweighted Least-Square (IRLS atau RLS). Seperti pada kasus estimator M dan W, IRLS bergantung pada skala prefix dan akurat untuk defenisi penimbangnya. Skala estimasi yang paling umum digunakan adalah 1,483 x MAD. g. Estimasi L Estimasi L didasarkan pada order statistic (statistic terurut), sebagai contoh andaikan kita ingin mengestimasi parameter lokasi suatu distribusi dari sample acak
X 1 , X 2 ,… , X n . Order statistic sampel ini adalah
X [1 ] ≤ X[ 2] ≤ … ≤ X [n ] . Median sample merupakan estimasi L, karena itu merupakan suatu ukuran lokasi order statistic. h. Estimasi R Sebagai tambahan terhadap estimator M, ada pendekatan lain untuk regresi robust. Estimasi R adalah prosedur yang didasarkan pada ranking (urutan). Untuk menggambarkan prosedur yang umum, ganti satu factor n
pada
fungsi
sasaran
kuadrat
14
terkecil
2
s ( β ) =∑ ( y i−x i β ) i=1
'
dengan
rankingnya. Demikian jika
Ri
adalah ranking dari
'
y i−x i β , lalu kita
n
ingin
meminimalkan
∑ ( y i−x 'i β ) Ri i=1
.
Lebih
umumnya,
kita
dapat
mengganti ranking (yang mana integer 1,2,…,n) dengan fungsi skor a(i)=1,2,…,n, sehingga fungsi sasarannya menjadi : n
min ∑ ( y i− x'i β ) a(Ri ) β
i=1
Jika kita menetapkan fungsi skor sama dengan ranking (ranks), a(i)=i, hasilnya disebut skor Wilcoxon. Kemungkinan lain adalah menggunakan
i<
skor median, dimana a(i)=-1 jika
n+1 2
dan a(i)=1 jika
i>
C. PEMBAHASAN 1. PENERAPAN ESTIMASI M a. Estimasi M (Huber) Data pengamatan penjualan rokok tahun 2012 di yogyakarta: jml outlet
iklan out
iklan koran
(X3)
(X4)
13.23 13.44 15.26 18.45 19.58 12.03 13.87 15.69 16.35
27.9 32.28 29.49 39.17 34.25 33.63 29.38 29.19 32.82
20.98 22.41 22.98 23.21 23.25 23.45 24.86 24.88 25
8
12.88
33.44
25.12
222.32
8
18.97
29.14
25.87
265.99
11
12.05
32.09
25.89
300.12
7
12.23
32.33
26.23
265.21
5
15.87
30.22
26.23
N o
Sales
1 2 3 4 5 6 7 8 9 1 0 1 1 1 2 1 3 1 4
215.36 295.15 254.26 452.62 150.5 320.14 254.25 235.26 302.21
7 5 10 5 8 8 6 9 9
120.35
(y)
(X1)
iklan radio (X2)
15
n+1 2 .
1 5 1 6 1 7 1 8 1 9 2 0 2 1 2 2 2 3 2 4 2 5 2 6 2 7 2 8 2 9 3 0
110.6
6
13.67
35.42
26.25
323.45
9
18.29
33.72
28.94
362.02
8
15.26
35.84
29.8
423
5
13.56
37.12
32.26
400.23
9
18.78
36.1
32.79
412.6
6
13.02
36.85
33.45
423.22
7
16.59
37.44
33.98
400.25
9
14.23
36.15
34.55
366.25
9
15.26
35.92
34.76
435.23
8
15.78
38.2
35.99
430.22
10
13.33
37.91
36.21
352.16
9
12.89
34.79
36.25
365.21
8
12.45
35.91
36.87
415.25
8
19.25
36.96
36.99
451.29
8
14.32
38.98
40.12
512.33
8
13.45
39.33
44.98
Dilakukan uji asumsi terlebih dahulu, yakni : Pertama, uji normalitas :
16
Probability Plot of RESI 1 Normal 99
Mean StDev N KS P-Value
95 90
-1.65793E-13 62.06 30 0.222 <0.010
Percent
80 70 60 50 40 30 20 10 5
1
-250
-200
-150
-100
-50 RESI1
0
50
100
150
Kedua, uji multikolinearitas : Predictor Constant X1 X2 X3 X4
Coef -296.0 -5.272 2.149 11.127 8.380
SE Coef 175.3 8.390 5.398 5.882 3.215
T -1.69 -0.63 0.40 1.89 2.61
P 0.104 0.535 0.694 0.070 0.015
VIF 1.156 1.042 2.480 2.595
Karena nilai VIF yang kecil mengindikasikan tidak ada multikolinearitas. Ketiga, uji homoskedasitas : The regression equation is Y = - 296 - 5.27 X1 +Versus 2.15Order X2 + 11.1 X3 + 8.38 X4 (response is Y)
Residual
100 Predictor Constant X1 50 X2 X3 0 X4
Coef -296.0 -5.272 2.149 11.127 8.380
-50
-100
S = 66.8377
SE Coef 175.3 8.390 5.398 5.882 3.215
R-Sq = 64.0%
T -1.69 -0.63 0.40 1.89 2.61
P 0.104 0.535 0.694 0.070 0.015
R-Sq(adj) = 58.2%
-150
Analysis of Variance -200 Source 2 4 6 Regression Residual Error Total
8DF 10
12 SS 14 16 18 MS 20 22 24 F 26 28P Observation Order 198473 49618 11.11 0.000 111682 4467 310155
4 25 29
30
Keempat, uji autokorelasi : Durbin-Watson statistic = 2.19514 Source DF Seq SS X1 1 22 Karena nilai durbin Watson mendekati X2 1 268 autokorelasi. X3 1 167831 X4 1 30352
2 menunjukkan tidak ada
Output minitab :
Unusual Observations b.
c.
Obs 4 5 10 15
X1 5.0 8.0 8.0 6.0
Y 452.6 150.5 120.3 110.6
Fit 347.6 279.8 272.1 315.8
SE Fit 46.6 31.8 21.8 23.3
Residual 105.0 17-129.3 -151.7 -205.2
St Resid 2.19R -2.20R -2.40R -3.28R
R denotes an observation with a large standardized residual.
d. e. f. g. h. i. j. k. l. m. n. o. p. q. r. s. t. u. Dengan menggunakan minitab didapatkan model regresinya adalah : v. Y = - 296 - 5.27 X1 + 2.15 X2 + 11.1 X3 + 8.38 X4
w. Model tersebut merupakan hasil metode OLS. x. y. z. aa. ab.
Didapatkan model : Y = - 296 - 5.27 X1 + 2.15 X2 + 11.1 X3 + 8.38 X4
18
Kemudian dilakukan pengujian dengan nilai standarized residual, dan DFITS. Hasilnya sebagai berikut :
Berdasarkan nilai standarized residual dan DFITS bahwa observasi ke 4, 5, 10, dan 15 terindikasi sebagai outlier.
19
ac.
Untuk penentuan nilai bobotnya menggunakan fungsi influence dan fungsi pembobot Huber, sebagai
berikut : ad.
20
ae. Dengan menggunakan minitab, maka di dapatkan model regresi untuk tiap iterasi sebagai berikut : af. It
ag.
Model regresi
ah. 1
ai. Y = - 288 - 5.10 X1 + 0.42 X2 + 13.4 X3 + 6.55 X4
aj. 2
ak. Y = - 312 - 5.03 X1 + 0.89 X2 + 14.4 X3 + 6.00 X4
al. 3
am. Y = - 307 - 5.14 X1 + 0.78 X2 + 14.2 X3 + 6.10 X4
an. 4
ao. Y = - 308 - 5.06 X1 + 0.81 X2 + 14.3 X3 + 6.07 X4
ap. 5
aq. Y = - 308 - 5.10 X1 + 0.80 X2 + 14.3 X3 + 6.08 X4
ar. 6
as. Y = - 308 - 5.08 X1 + 0.80 X2 + 14.3 X3 + 6.08 X4
at. 7
au. Y = - 308 - 5.09 X1 + 0.80 X2 + 14.3 X3 + 6.08 X4
av. 8
aw. Y = - 308 - 5.09 X1 + 0.80 X2 + 14.3 X3 + 6.08 X4
ax.
Sehingga model regresi robust untuk estimasi M adalah :
ay. Y = - 308 - 5.09 X1 + 0.80 X2 + 14.3 X3 + 6.08 X4
az.
Kemudian dilakukan uji secara serentak (apakah keragaman Y dapat dijeaskan oleh model regresi X terhadap Y signifikan secara statistik?) dan uji individu (apakah peubah X i berpengaruh terhadap peubah Y apabila peubah lainnya tetap?). hasil output minitab Weighted analysis using weights in W(e*)8 sebagai berikut : ba. The regression equation is bb. Y = - 308 - 5.09 X1 + 0.80 X2 + 14.3 X3 + 6.08 X4 bc. bd. Predictor Coef SE Coef T P be. Constant -307.8 136.1 -2.26 0.033 X1 bf. -5.088 6.394 -0.80 0.434 X2 0.802 4.239 0.19 0.851 X3 bg. 14.260 4.687 3.04 0.005 X4 bh. 6.077 2.586 2.35 0.027 bi. S = 50.3678 R-Sq = 74.0% R-Sq(adj) = 69.8% bj. Analysis bk. of Variance bl. Source DF SS MS F P Regression 4 180198 45049 17.76 0.000 bm. Residual Error 25 63423 2537 bn. Total 29 243621 bo. Source bp. DF1 Seq SS X1 74 X2 bq. 1 82 X3 br. 1 166034 X4 1 14008 bs. Unusual Observations Obs 5 10 15
X1 8.0 8.0 6.0
Y 150.50 120.35 110.60
Fit 296.88 291.32 337.23
SE Fit 26.14 17.28 19.07
21 Residual -146.38 -170.97 -226.63
St Resid -2.38R -2.55R -3.08R
R denotes an observation with a large standardized residual.
bt. bu. bv. bw. bx. Untuk uji serentak didapatkan p-value sebesar 0.000 yang lebih kecil dari alpha sebesar 0.05, sehingga secara statistik keragaman Y dapat dijeaskan oleh model regresi X terhadap Y signifikan. Untuk uji individu didapatkan peubah X1 dan X2 tidak signifikan, namun ini masih lebih baik dari model regresi non robust dimana ada empat peubah yang tidak signifikan yakni constant, peubah X1, X2, dan X3. by.
b.
Estimasi M (Tukey Bisquare)
bz. :
Dengan menggunakan minitab didapatkan model regresinya adalah
ca.
Y = - 296 - 5.27 X1 + 2.15 X2 + 11.1 X3 + 8.38 X4
cb. Model tersebut merupakan hasil metode OLS. cc. Dengan menggunakan minitab, maka di dapatkan model regresi untuk tiap iterasi sebagai berikut : cd. Iter a s i k e
ce.
Model regresi
cf. 1
cg. Y = - 290 - 5.77 X1 + 0.09 X2 + 14.1 X3 + 6.19 X4
ch. 2
ci. Y = - 317 - 4.58 X1 + 0.99 X2 + 14.5 X3 + 5.85 X4
cj. 3 cl. 4
ck. Y = - 303 X3 + 5.83 cm. Y = - 316 X3 + 5.87
- 6.12 X1 + 0.29 X2 + 14.8 X4 - 4.33 X1 + 1.00 X2 + 14.4 X4
cn. 5
co. Y = - 302 - 6.34 X1 + 0.28 X2 + 14.8 X3 + 5.85 X4
cp. 6
cq. Y = - 317 - 4.04 X1 + 1.08 X2 + 14.3 X3 + 5.91 X4
cr. 7 ct. 8 cv.9
cs. Y = - 301 X3 + 5.89 cu. Y = - 318 X3 + 5.97 cw. Y = - 299 X3 + 5.94
- 6.59 X1 + 0.25 X2 + 14.8 X4 - 3.71 X1 + 1.19 X2 + 14.2 X4 - 6.85 X1 + 0.21 X2 + 14.8 X4
cx.1 0
cy. Y = - 320 - 3.38 X1 + 1.31 X2 + 14.0 X3 + 6.04 X4
cz.1 1
da. Y = - 297 - 7.07 X1 + 0.17 X2 + 14.7 X3 + 6.00 X4
db.
dc. Y = - 321 - 3.09 X1 + 1.43 X2 + 13.9 X3 + 6.10 X4
22
12 dd. 13
de. Y = - 295 - 7.24 X1 + 0.14 X2 + 14.7 X3 + 6.06 X4
df. 1 4
dg. Y = - 321 - 2.89 X1 + 1.51 X2 + 13.8 X3 + 6.15 X4
dh. 15
di. Y = - 293 - 7.35 X1 + 0.13 X2 + 14.6 X3 + 6.11 X4
dj. 1 6
dk. Y = - 322 - 2.76 X1 + 1.57 X2 + 13.7 X3 + 6.19 X4
dl. 1 7
dm. Y = - 293 - 7.42 X1 + 0.12 X2 + 14.6 X3 + 6.14 X4
dn. 18
do. Y = - 322 - 2.69 X1 + 1.60 X2 + 13.6 X3 + 6.21 X4
dp. 19
dq. Y = - 292 - 7.45 X1 + 0.11 X2 + 14.6 X3 + 6.15 X4
dr. 2 0
ds. Y = - 322 - 2.65 X1 + 1.62 X2 + 13.6 X3 + 6.22 X4
dt.2 1
du. Y = - 292 - 7.47 X1 + 0.11 X2 + 14.6 X3 + 6.16 X4
dv. 22
dw. Y = - 322 - 2.63 X1 + 1.62 X2 + 13.6 X3 + 6.23 X4
dx. 23
dy. Y = - 292 - 7.48 X1 + 0.11 X2 + 14.6 X3 + 6.16 X4
dz. 24
ea. Y = - 322 - 2.62 X1 + 1.63 X2 + 13.6 X3 + 6.23 X4
eb. 25
ec. Y = - 292 - 7.48 X1 + 0.11 X2 + 14.6 X3 + 6.17 X4
ed. 26
ee. Y = - 322 - 2.62 X1 + 1.63 X2 + 13.6 X3 + 6.23 X4
ef. 2 7
eg. Y = - 292 - 7.49 X1 + 0.11 X2 + 14.6 X3 + 6.17 X4
eh. ei. Dalam kasus ini, ternyata model regresi robust dengan tukey bisquare konvergen ke dua model yakni : ej.
Y = - 322 - 2.62 X1 + 1.63 X2 + 13.6 X3 + 6.23 X4 ek. R
el. R s q u a r e a
em. Uj i F
23
en. Uji T
d j ep. 6 5 . 7 %
eo. 7
eq. si gn if ik an
er. X1 dan X2 tidak signifikan
es.
Dan
et.
Y = - 292 - 7.49 X1 + 0.11 X2 + 14.6 X3 + 6.17 X4
eu. R
ey. 7
ev. R s q u a r e a d j
ew. Uj i F
ex. Uji T
ez. 7 3 . 6 %
fa. si gn if ik an
fb. X1 dan X2 tidak signifikan
fc.
fd. Sehingga model terpilih adalah Y = - 292 - 7.49 X1 + 0.11 X2 + 14.6 X3 + 6.17 X4 fe. ff. fg. fh. fi. fj. fk. fl. 2. PENERAPAN ESTIMASI LTS fm.
Langkah awal untuk menentukan h dimana
h
E LTS =∑ e i 2
2
i=1
E2LTS =5798.007
digunakan
model
hasil
dari
h=
OLS.
n+ p+ 1 2
dan
Didapatkan
dan h = 18 yang artinya 18 data baru (telah diurutkan
secara ascending berdasarkan
2
ei
yang akan digunakan untuk
estimasi LTS iterasi ke 1, hasil output minitabnya sebagai berikut : 24
fn. The
regression equation is Y = - 365 - 5.34 X1 + 0.28 X2 + 18.3 X3 + 3.92 X4
fo.
Predictor
Coef -364.95 -5.342 0.275 18.315 3.921
Constant fp. X1 X2 fq. X3 X4
fr.
S = 13.5080
SE Coef 51.16 2.276 1.493 2.239 1.361
T -7.13 -2.35 0.18 8.18 2.88
R-Sq = 98.0%
P 0.000 0.035 0.857 0.000 0.013
R-Sq(adj) = 97.4%
fs.Analysis
of Variance Source DF SS ft.Regression 4 117648 Residual Error 13 2372 Total 17 120020 fu. Source
DF 1 1 1 1
fv.X1 X2
X3 fw. X4
fx. Unusual Obs 2
fy.
MS 29412 182
F 161.19
P 0.000
Seq SS 250 2156 113729 1514
Observations Y Fit 512.33 492.72
X1 8.0
SE Fit 9.57
Residual 19.61
St Resid 2.06R
R denotes an observation with a large standardized residual.
E2LTS =577,9835 .
fz. Dengan
ga. nilai h baru untuk iterasi ke 2 adalah 12 yang artinya 12 data baru yang akan digunakan, hasil output minitab sebagai berikut : gb. The
regression equation is Y = - 308 - 5.07 X1 - 1.55 X2 + 15.8 X3 + 5.69 X4
gc.
Predictor Constant gd. X1 X2 X3 ge. X4
gf.S
Coef -307.54 -5.069 -1.547 15.831 5.689
= 7.56569
SE Coef 38.89 1.351 1.114 2.167 1.676
T -7.91 -3.75 -1.39 7.30 3.39
R-Sq = 99.5%
P 0.000 0.007 0.207 0.000 0.012
R-Sq(adj) = 99.2%
gg. Analysis
of Variance Source DF SS Regression 4 78567 gh. Residual Error 7 401 Total 11 78967
MS 19642 57
F 343.15
P 0.000
gi.
Source
DF Seq SS 1 0 X2 1 114 The equation is X3 regression 1 77793 gk. Y X4 = - 345 1 - 5.39 659 X1 - 1.49 X2 + 16.9 X3 + 5.67 X4
gj.X1
2
Predictor gl.
E LTS =183.79 Coef SE Coef T . Dengan
gn. S = 4.03036
R-Sq = 99.9%
P Constant -344.89 30.14 -11.44 0.000 X1 -5.3908 0.8230 -6.55 0.003 X2 -1.4929 0.7848iterasi -1.90 0.130 gm. nilai h baru untuk ke 3 adalah 9 yang artinya 9 data X3 16.889 1.411 11.97 0.000 baru yang akan digunakan, hasil output minitab sebagai berikut : X4 5.675 1.042 5.45 0.006 R-Sq(adj) = 99.8%
go. Analysis of Variance Source
gp. Regression Residual Error Total Source X1 X2 X3 X4
DF 1 1 1 1
DF 4 4 8
Seq SS 26 766 55843 482
SS 57117 65 57182
MS 14279 16
25
F 879.07
P 0.000
gq. gr. gs. gt. gu. gv. gw. gx. gy.
Dengan
E2LTS =37.5484 .
gz. nilai h baru untuk iterasi ke 4 adalah 8 yang artinya 8 data baru yang akan digunakan, hasil output minitab sebagai berikut : ha. The regression equation is Y = - 321 - 5.17 X1 - 2.00 X2 + 15.7 X3 + 6.39 X4
hb.
Predictor
Coef -321.32 -5.1693 -2.0034 15.7200 6.3890
Constant hc. X1
X2 hd. X3 X4 he.
hf.S = 2.55122
SE Coef 21.06 0.5277 0.5330 0.9969 0.7129
T -15.26 -9.80 -3.76 15.77 8.96
R-Sq = 100.0%
Analysis of Variance DF SS Regression 4 52540 hh. Residual Error 3 20 Total 7 52560
hg. Source
P 0.001 0.002 0.033 0.001 0.003
R-Sq(adj) = 99.9% MS 13135 7
F 2018.07
P 0.000
hi.
Source
hj.X1 X2
X3 hk. X4
DF 1 1 1 1
hl. Dengan
Seq SS 54 1208 50755 523
E2LTS =126.7744 .
hm. The regression equation is
Y1 = - 334 - 5.56 X11 - 1.45 X21 + 16.6 X31 + 5.57 X41 hn. Predictor ho.
Coef SE Coef T P Constant -333.999 9.930 -33.63 0.001 X11 -5.5644 0.2569 -21.66 0.002 hp. X21 -1.4483 0.2802 -5.17 0.035 X31 16.6446 0.5079 32.77 0.001 hq. nilai h baru untuk iterasi ke 5 adalah X41 5.5721 0.3862 14.43 0.005
7 yang artinya 7 data baru yang akan digunakan, hasil output minitab sebagai berikut : S = 1.12714
hr.
R-Sq = 100.0%
Analysis of Variance DF SS Regression 4 45404 Residual Error 2 3 ht. Total 6 45406 Source hs.
Source X11 X21 X31 X41
DF 1 1 1 1
Seq SS 958 222 43959 264
R-Sq(adj) = 100.0% MS 11351 1
26
F 8934.59
P 0.000
hu. hv. hw. hx. hy. hz. ia. ib. ic. Dengan
E2LTS =20.2058 .
id. Iterasi berhenti sampai iterasi ke 5 karena nilai h pada itreasi ke 6 sama dengan iterasi ke 5 yakni 7. ie. if. ig. ih. ii. ij. ik. il. im. in. io. ip. iq. ir. is. it. D. DAFTAR PUSTAKA iu. Bambang J. 2009. Ekonometrika: Pemodelan dan Pendugaan. Bogor (ID): IPB Pr. iv.
iw. Chen C. 2002. Robust Regression and Outlier Detection with the Robustreg Procedure. Paper 265-27, Statistics and Data Analysis, SUGI 27, North Carolina: SAS Institute Inc. ix.
27
iy.
Draper NR, Smith. 1992. Analisis Regresi Terapan. Diterjemahkan oleh Bambang Sumantri. Jakarta (ID): Gramedia.
iz.
ja.
Montgomery DC, Peck EA. 1992. Introduction to Linear Regression Analysis. New York (NY): John Wiley and Sons.
jb.
jc.
Musarifah, Raupong, Nasrah S. Perbandingan Metode Robust Least Trimmed Square Dengan Metode Scale Dalam Mengestimasi Parameter Regresi Linear Berganda Untuk Data Yang Mengandung Pencilan. [Internet]. Makassar (ID). [diunduh 2016 jam 14:28 WIB]. Tersedia pada: http://repository.unhas.ac.id/bitstream/handle/123456789/13647/JUR NAL.pdf?sequence=1
jd.
je.
Paper Robust.
jg.
Rokhdana DB. Regresi Robust Dengan M-Estimation.
jf.
jh.
ji.
Ryan TP. 1997. Modern Regression Methods. Canada: John Wiley & Sons Inc.
jj.
jk.
Yuliana S, Hasih P, Sri SH. 2013. Optimasi Model Regresi Robust Untuk Memprediksi Produksi Kedelai di Inodonesia. [Internet]. Yogyakarta (ID). [diunduh 2016 jam 17:45 WIB]. Tersedia pada: https://core.ac.uk/download/files/335/18454387.pdf
jl.
jm.
jn. jo.
Yuliana. 2014. Penerapan Model Regresi Linear Robust Dengan Estimasi M Pada Data Nilai Kalkulus II Mahasiswa Universitas Widya Dharma Klaten. Magistra No. 90 Th. XXVI [Internet]. Hlm 87 – 97; [diunduh 2016 jam 09:46 WIB]. Tersedia pada: http://download.portalgaruda.org/article.php? article=298460&val=6820&title=PENERAPAN%20MODEL %20REGRESI%20LINEAR%20ROBUST%20DENGAN%20ESTIMASI %20M%20PADA%20DATA%20NILAI%20KALKULUS%20II %20MAHASISWA%20UNIVERSITAS%20WIDYA%20DHARMA %20KLATEN
jp. jq. jr. js.
28