TINJAUAN PUSTAKA Model Regresi Linier Ganda Hubungan antara y dan X dalam model regresi linier umum adalah y=Xß + e
(1)
dengan y merupakan vektor pengamatan pada peubah respon (peubah tak bebas) berukuran (n x 1) dan X adalah matriks berukuran (n x p) dengan p peubah bebas dan n pengamatan, ß adalah vektor koefisien regresi (parameter) berukuran (p x 1) dan ε adalah vektor sisaan berukuran (n x 1). Model regresi linier umum memiliki asumsi bahwa: (1) εi merupakan suatu peubah acak, εi ~ N(0, σ2 ), (2) εi dan ε j tidak berkorelasi, sehingga ragam-peragam ( εi , ε j ) = 0, dengan i ≠ j (Draper & Smith 1981). Metode kuadrat terkecil sering digunakan untuk menduga parameter. Penduga yang dihasilkan metode kuadrat terkecil tidak berbias, terbaik dan konsisten. Ragam penduganya bernilai minimum dibandingkan dengan ragam penduga tak bias lainnya. Penggunaan metode kuadrat terkecil ini peka terhadap penyimpangan asumsi-asumsi yang diperlukan, sehingga adanya pengamatan pencilan dalam data dapat mengakibatkan persamaan regresi yang diperoleh memiliki penduga yang tidak tepat (Aunuddin 1989)
Kolinieritas Kolinieritas pada regresi linier ganda terjadi karena adanya korelasi yang cukup tinggi di antara peubah bebas. Suatu metode formal untuk mendeteksi adanya kolinieritas adalah Variance Inflation Factors (VIF). VIF merupakan faktor yang mengukur seberapa besar kenaikan ragam koefisien regresi dugaan bk dibandingkan terhadap peubah bebas lainnya yang saling ortogonal. VIF diformulasikan dalam bentuk : VIFk =
1 (1 − Rk2 )
(Fox dan Monette 1992)
5
dengan Rk2 adalah koefisien determinasi dari peubah bebas Xk diregresikan terhadap semua peubah bebas X yang lainnya di dalam model. Nilai VIF yang lebih besar dari 10 mengindikasikan bahwa terjadi kolinieritas dalam data (Neter et al. 1990). Pendeteksian Pencilan Pendeteksian pengamatan pencilan terhadap nilai- nilai X dapat digunakan matriks H (hat matrix) yang didefinisikan sebagai : H = X(X’X)-1 X’
(2)
Unsur ke- i pada diagonal utama matriks H dinamakan hii . Unsur diagonal hii di dalam matriks H dapat diperoleh dari hii = xi' (X’X)-1 xi
(3) n
nilai hii berkisar antara 0 dan 1, dan
∑ hii
= p, dengan p adalah banyaknya
i=1
koefisien regresi di dalam fungsi termasuk konstanta (intercept) (Neter et al. 1990). Unsur diagonal hii dinamakan leverage ke- i yang merupakan ukuran jarak antara nilai X untuk pengamatan ke- i dan rataan X untuk semua pengamatan. Nilai hii yang lebih besar dari 2p/n dinyatakan sebagai pengamatan pencilan dan berpengaruh. Nilai hii yang semakin besar menunjukkan semakin besar potensinya untuk berpengaruh (Aunuddin 1989). Pendeteksian pencilan juga dapat dilakukan dengan menggunakan nilai Rstudent (externally studentized residual) yang didefinisikan sebagai : ti
=
yi − yˆ i s ( −i ) 1 − hii
(4)
dengan yi adalah nilai peubah respon pada pengamatan ke-i, yˆ i adalah nilai dugaan y pada pengamatan ke- i, s(-i) merupakan dugaan simpangan baku tanpa pengamatan ke- i. R-student menyebar mengikuti sebaran t-student dengan derajat bebas (n-p-1). Suatu pengamatan dikatakan pencilan jika t > t(n-p-1;α/2) dalam taraf nyata α (Myers 1990).
6
Pendeteksian Pengamatan Berpengaruh Pendeteksian pengamatan berpengaruh ditentukan berdasarkan nilai DFFITS dan Cook’s D. Nilai DFFITSi merupakan suatu ukuran pengaruh yang ditimbulkan oleh pengamatan ke-i terhadap nilai dugaan yˆi apabila pengamatan ke-i dihapus. Nilai DFFITSi diperoleh dari rumus berikut : (DFFITS)i =
yˆ i − yˆ i , − i s ( − i) 1 − hii
(5)
dengan yˆ i, − i adalah nilai dugaan yi tanpa pengamatan ke–i. Suatu pengamatan 1/ 2
p dikatakan berpengaruh apabila nilai DFFITS i > 2 n
(Myers 1990).
Cook’s D merupakan suatu ukuran pengaruh pengamatan ke- i terhadap semua koefisien regresi dugaan. Pada Cook’s D, pengaruh pengamatan ke- i diukur oleh jarak Di. Jarak tersebut diperoleh dari rumus berikut : Di =
(b − b− 1 )' ( X' X )(b − b− 1 ) ps 2
(6)
dengan b-i adalah vektor koefisien regresi dugaan tanpa pengamatan ke-i, b adalah vektor koefisien regresi dugaan termasuk pengamatan ke-i, p merupakan banyaknya parameter regresi di dalam model termasuk konstanta. Suatu pengamatan merupakan pengamatan berpengaruh apabila mempunya i nilai D > F(p; n-p; α) dengan taraf nyata α (Myers 1990). Pengaruh Lokal Teknik pengaruh lokal diperkenalkan oleh Cook (1986) sebagai alat diagnosis umum untuk metode kemungkinan maksimum. Pada regresi linier ganda, metode pengaruh lokal berbeda dengan metode penghapusan (Cook’s D). Metode pengaruh lokal digunakan untuk menaksir dampak pembobotan di titik pengamatan tertentu dalam suatu model, sedangkan Cook’s D menaksir dampak pengahapusan di titik pengamatan tertentu dalam suatu model. Metode pengaruh lokal menyatakan bahwa pengamatan yang pembobotnya lebih besar adalah pengamatan paling berpengaruh.
7
Misalkan βˆ merupakan penduga kemungkinan maksimum dari model regresi linier ganda dari persamaan (1), yang diperoleh dari fungsi kemungkinan maksimum L (β;y). Misalkan W adalah matriks pembobot berukuran n x p dituliskan sebagai berikut : w1 wn+ 1 w2 n + 1 L w2 wn + 2 L L W = M O w3 n L wn w2 n
w p ( n− 1) +1 w p ( n−1) + 2 M w pn
Pembobot W dimasukkan ke dalam model sehingga model regresi linier ganda menjadi y = (X+ W) ß + e Misalkan
(7)
βˆ w merupakan penduga kemungkinan maksimum dari
persamaan (7) yang diperoleh dari kemungkinan maksimum Lw (β;y). Misalkan dalam ruang pembobot terdapat pembobot yang tidak berarti w0 (pembobot nol) sehingga Lw0 (β;y) = L (β;y), dengan demikian pembobot dapat ditulis sebagai w = w0 + a v
(8)
dengan v mewakili arah vektor dan a mewakili jarak w dari w0 . Ukuran dari pembobot dinya takan sebagai ||w – w0 || = |a|
(9)
Ukuran dari pembobot pada pendugaan kemungkinan maksimum adalah perpindahan kemungkinan (LD) : LD (w) = 2 [L ( βˆ ;y) – L ( βˆ w; y)]
(10)
fungsinya mencapai nilai minimum nol pada pembobot nol. Penerapan pendekatan deret taylor orde kedua pada persamaan 10 menghasilkan && v LD(w) ≈ ½ a2 v’ A 2 && = 2 ∂ L (βˆw ; y) dengan A
∂w∂w'
0
(11)
, dengan |0 dinotasikan evaluasi pada β = βˆ , w = w0
&& v adalah matriks kuadrat yang menyatakan kurva normal dari grafik v’ A pengaruh di w0 mengarah ke v yang merupakan ukuran pembobot. Jika kurva mengarah ke v 1 , t kali lebih besar mengarah ke v 2 , maka pembobot w = w0 + av 1 , t kali lebih besar dibandingkan pembobot w = w0 + av2 , oleh karena itu suatu
8
pembobot dikatakan berpengaruh jika pembobot pengamatan tersebut lebih besar β] dibandingkan pembobot pengamatan lainnya. C [max yang merupakan kurva β] terbesar yang bersesuaian dengan arah v [max , dapat dicari dengan menggunakan
&& . vektor ciri (eigenvector) dan akar ciri (eigenvalue) dari matriks A && mempunyai r ≤ minimum (p,q) akar ciri λ1 ≥ λ2 ≥ . . . ≥ λr ≥ 0 Matriks A yang tidak nol, yang bersesuaian dengan vektor ciri v 1 , v2 , . . ., v r dengan p adalah β] banyaknya peubah bebas dan q = n x p. Kurva terbesar adalah C [max = λ1 , yang β] bersesuaian dengan arah v [max = v 1 . Kurva terbesar kedua adalah λ2 yang
bersesuaian dengan arah v 2 , atau dapat ditulis kurva terbesar ke-r adalah λr yang bersesuaian dengan arah v r. Untuk memperoleh pengaruh pada βˆ , Cook (1986) menunjukkan bahwa && [β ] yang berukuran np x np adalah : matriks A && [β ] = 2 (Ip ⊗ r - βˆ ⊗ X) ((X’X)-1 ⊗ r’ - βˆ ’ ⊗ (X’X)-1 X’) / σ2 A
(12)
dengan ⊗ menunjukkan perkalian kronecker. && [β ] mempunyai p akar ciri yang tidak nol yaitu : Matriks A λj
[β ]
= 2 (n/δ p-j+1 + || βˆ ||2 / σ2 ), j = 1,2, …, p
dengan δ j adalah akar ciri ke-j dari X’X. Untuk j = 1 diperoleh λ j
[β ] C max = 2 (n/δ j + || βˆ ||2 / σˆ 2 )
(13) [β ]
β] = C [max
(14)
&& [β ] mempunyai p vektor ciri yang bersesuaian dengan akar ciri Matriks A didefinisikan sebagai berikut :
[ß ] ∝ ϕ ˆ p-j+1 ⊗ r - β ⊗ X ϕ p-j+1 , dengan j = 1,2, …, p
vj
(15)
dengan ϕ j adalah vektor ciri ke-j dari X’X dan vektor Zj = Xϕj merupakan komponen utama ke-j. Komponen ini menjelaskan bagian terbesar dari keragaman yang dikandung oleh data. Komponen Z yang lain menjelaskan proporsi keragaman yang semakin kecil sampai semua keragaman datanya terjelaskan. β] Untuk j = 1 maka v [βj] = v [max
[β ] v max ∝ ϕp ⊗ r - ߈ ⊗ Zp
(16)
9
β] plot v [max terhadap nomor pengamatan akan mengidentifikasi x ij yang paling
berpengaruh terhadp ߈ berdasarkan pencaran data yang jauh dari titik nol. [β ] Misalkan W max dinotasikan sebagai ukuran pembobot dengan definisi : [β ] W max ∝ [ϕp1 r - βˆ 1 Zp
ϕp2 r - βˆ 2 Zp
….
ϕpp r - β p Zp ]
(17)
[β ] wij dari W max berpengaruh jika pengamatan ke-i sebuah pencilan (|ri| besar) atau
mempunyai leverage yang besar (|zpi| besar). Pembobot yang ditambahkan pada data dapat mengub ah penduga koefisien regresi linier ganda (Lesaffre & Verbeke 1998).
Pendeteksian Peubah Berpengaruh Nilai
[β ]
v max
digunakan
untuk
mendeteksi
adanya
peubah
bebas
β] berpengaruh. Nilai x ij pada v [max yang semakin besar menunjukkan semakin besar
potensi peubah bebas ke-j untuk berpengaruh. Suatu peubah bebas dikatakan β] berpengaruh apabila nilai v [max untuk pengamatan tersebut lebih besar dari
1 β] , dengan q menyatakan banyaknya anggota v [max dalam model yaitu sebesar q n x p (Littell at al. 2003).
Pendeteksian Pengamatan Pencilan dan Berpengaruh Pendeteksian pengamatan pencilan pada peubah bebas berpengaruh didasarkan oleh besarnya pengaruh dari setiap pengamatan (C i) yang didefinisikan sebagai berikut : r
Ci = 2 ∑ λ j ν 2ji ,
i= 1, 2, …, n
(18)
j=1
&& [β ] (Zhu & Zhang dengan λ j dan ν ji akar ciri dan vektor ciri dari matriks A 2004).
10
Suatu pengamatan dikatakan berpengaruh apabila ukuran pengaruh n
C pengamatan (C i) lebih besar dari 2 ∑ i dengan n banyaknya pengamatan n i =1
(Lesaffre & Verbeke 1998).
Regresi Komponen Utama Regresi komponen utama merupakan salah satu metode untuk mengatasi masalah kolinieritas dalam data. Regresi komponen utama bermula dari analisis komponen utama pada peubah bebas yang akan menghasilkan komponenkomponen utama dari peubah bebas yang saling ortogonal. Komponen utama inilah yang kemudian diperlukan sebagai peubah bebas. Masing- masing komponen utama tidak berkorelasi sehingga tidak ada kolinieritas diantara komponen utama tersebut. Jika semua komponen utama diikutkan dalam regresi komponen utama, model yang dihasilkan ekuivalen dengan metode kuadrat terkecil, namun varian penduga yang besar akibat multikolinieritas tidak tereduksi. Untuk mereduksi varian tersebut tidak semua komponen utama diikutkan dalam regresi komponen utama. Berikut ini algoritma dari regresi komponen utama (Jolliffe 1986) : a.
Menentukan peubah Xs hasil dari standarisasi peubah X. Xsij =
X ij − X j , i = 1,2,3, . . . , n dan j = 1,2,3, . . . , p. Sj
b.
Menentukan akar ciri dari persamaan |Xs’Xs - λI| = 0.
c.
Menentukan nilai vektor ciri ϕj dari setiap akar ciri λj melalui persamaan (Xs’Xs-λjI) ϕj = 0.
d.
Menentukan komponen utama Zj melalui prosedur seleksi akar ciri λj, Zj = ϕ1j Xs1 + ϕ2j Xs2 + . . . + ϕrj Xsr, di mana r < p dan r adalah banyaknya komponen yang terpilih.
e.
Regresikan komponen utama Z1 , Z2 , Z3 , . . . , Zr dengan peubah respon y.
f.
Menghitung nilai yˆ
11
g.
Melakukan transformasi model regresi dari yˆ = f (Z) ke yˆ = f (Xs) melalui suatu hubungan b = ϕ j * a b = adalah penduga koefisien regresi yˆ = f (Z) a = adalah penduga koefisien regresi yˆ = f (Xs) ϕ j = adalah vektor ciri dari komponen yang ke-j