BAB 2
TINJAUAN PUSTAKA
2.1. Regresi Linear Berganda Regresi linear berganda adalah regresi dimana variabel terikatnya ,
, …,
dihubungkan atau dijelaskan dengan lebih dari satu variabel bebas dengan syarat variabel bebas masih menunjukkan hubungan ,
,…,
yang linear dengan variabel terikat. Hubungan fungsional antara variabel terikat
dengan variabel bebas
dituliskan sebagai berikut: •
=
Untuk populasi
•
Untuk sampel
=
+
+
+
+ … +
+
(2.1)
+
+
+
+ … +
+
(2.2)
= 1,2, ⋯ , !
di mana:
,
,
= variabel terikat pada pengamatan ke-
,…,
,
secara umum dapat
= variabel bebas pada pengamatan ke-" variabel ke-
,…,
= parameter regresi = nilai kesalahan (error)
Apabila terdapat sejumlah ! pengamatan dan " variabel bebas
maka
untuk setiap pengamatan atau responden mempunyai persamaannya seperti =
berikut:
⋮
= =
=
+ ⋮
+ +
+
+ ⋮
+ +
+
+ ⋮
+ + +
+ … + ⋮
+ … + + … + ⋮
+ … +
+ ⋮
+ +
+
⋮
Universitas Sumatera Utara
6
Apabila persamaan regresi linear berganda untuk setiap pengamatan dinyatakan dengan notasi matriks maka menjadi:
=
atau
& ) &1 1 % ( % = % ( %1 % ⋮ ( %⋮ ⋮ $ ' $1
+
⋮
⋮
⋯ ⋯ ⋯ ⋱ ⋯
)& (% (% ⋮ (% '$
) & ) ( % ( (+% ( ⋮( %⋮( ' $ '
(2.3)
adalah vektor variabel terikat berukuran ! + 1.
dengan:
adalah matriks variabel bebas berukuran ! + , − 1 .
adalah vektor parameter berukuran , + 1.
adalah vektor error berukuran ! + 1.
Menurut Gujarati penggunaan analisis regresi linear berganda tidak terlepas = 0 menyatakan bahwa rata-rata atau nilai harapan vektor
dari asumsi-asumsi error berikut: 1. Asumsi
setiap komponennya bernilai nol. Dengan
= 0, berarti:
0 adalah vektor nol. Maka & % % % $
) & ( % (=% ⋮( % /' $
⋮
/
0
2. Asumsi
) ( (=0 ( '
1
adalah vektor kolom ! + 1 dan
(2.4)
merupakan suatu notasi yang mencakup 2 hal, yaitu
varian dan kovarian kesalahan pengganggu. 0
=
Dimana
0
& % % % $
) (2 ( , ⋮( /'
,
, ⋯ ,
/3
(2.5)
adalah transpose dari vektor kolom
, dengan melakukan
perkalian sehingga diperoleh:
Universitas Sumatera Utara
7
=
0
⋯ / ⋯ / =4 5 ⋮ ⋮ ⋮ ⋮ ⋯ / / /
(2.6)
Dengan menggunakan nilai harapan matriks (2.6) sehingga diperoleh: 0
=
4
⋮
/
⋮
/
⋯ ⋯ ⋮ ⋯
⋮
/ /
/
untuk setiap unsur dalam
5
(2.7)
Karena adanya asumsi tentang homoskedastisitas, yaitu bahwa setiap
= 1 , untuk
kesalahan pengganggu mempunyai varian yang sama
semua dan tidak ada korelasi serial artinya antar kesalahan pengganggu yang satu dengan yang lainnya bebas, "678 0
1 =40 ⋮ 0
0 1 ⋮ 0
⋯ 0 ⋯ 0 5 ⋱ ⋮ ⋯ 1
9:
= 0.
1 0 ⋯ 0 (2.8) = 1 <0 1 ⋯ 0= = 1 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ 1 Dengan adalah matriks identitas berukuran ! + !. Matriks (2.7)
dan (2.8) disebut matriks varians-kovarians dari kesalahan penggangu .
Unsur pada diagonal utama dari matrik (2.7) memberikan varians dan unsur diluar diagonal utama memberikan kovarian, berdistribusi normal dengan mean nol dan varians konstan 1 .
~? 0, 1
Pada rumus parameter regresi sederhana dan parameter regresi
,
dan ,
,⋯,
berganda, diduga secara berturut-turut dengan
,
dalam regresi linear pada regresi linear dan
,
,
,⋯,
dengan menggunakan metode Ordinary Least Square. Biasanya penduga metode OLS diperoleh dengan meminimumkan jumlah kuadrat error untuk masing-masing model regresi linear. Penduga yang dihasilkan oleh metode OLS ini diharapkan bersifat BLUE (Best Linear Unbiased Estimator).
Universitas Sumatera Utara
8
2.2.Koefisien Determinasi Berganda Menyatakan keeratan hubungan antara variabel terkat ,
bebas
,⋯,
/
dan variabel
pada regresi linear berganda akan dinyatakan dengan
koefisien determinasi berganda. Besarnya koefisien determinasi berganda dari persamaan regresi linear berganda yaitu: = 1−
= ∑
=∑
dimana:
= ∑
=∑
=∑
= =
−
−
−⋯−
=∑
=∑
−
− ∑
−
−
∑
−∑ ∑
−⋯−
−
; (dimana
∑
−
−
−
∑
−⋯− ∑
∑
=
∑ ∑
−⋯−
−⋯ − ∑
−⋯−
∑ ABC D ∑ ABC DEF ∑ GFB AB DEC ∑ GCB AB D⋯DEB ∑ GHB AB ∑ ABC EF ∑ GFB AB IEC ∑ GCB AB I⋯∓∑ GHB AB ∑ ABC
dimana nilai
berada dalam interval 0 ≤
Adapun semakin besar nilai
karena ∑
=⋯ =
∑
= ∑
−
−
=0
≤ 1.
artinya semakin baik suatu garis
regresi linear digunakan sebagai suatu pendekatan. Dan apabila nilai
sama
dengan 1 (satu) berarti pendekatan tersebut semakin baik.
2.3. Residual = L − LM . Namun
Residual atau sisaan dalam regresi linear sederhana merupakan selisih dari nilai prediksi dengan nilai yang sebenarnya atau penggunaan jarak ∑/N
= L − LM tidaklah memuskan. Dengan meminimumkan
= ∑/N L − LM
diperoleh hasil yang umum seperti berikut :
(2.9)
Universitas Sumatera Utara
9
Jika nilai pengamatan terletak dalam garis regresi maka nilai residual sama dengan nol ∑/N | | = 0 artinya semua nilai pengamatan
residualnya sama dengan nol. Jadi, jika total jarak atau nilai mutlak dari
berada pada garis regresi. Semakin besar nilai residualnya maka garis regresi semakin kurang tepat digunakan untuk memprediksi. Yang diharapkan adalah total residualnya kecil sehingga garis regresi cukup baik untuk digunakan.
2.4. Metode Ordinary Least Square (OLS) Metode Ordinary Least Square (OLS) merupakan suatu metode untuk mendapatkan garis regresi yang baik yaitu sedekat mungkin dengan datanya sehingga menghasilkan prediksi yang baik (Widarjono, 2005).
Metode OLS harus memenuhi asumsi-asumsi yang ada dalam proses pengestimasian parameter sehingga hasil estimasinya memenuhi sifat Best Linear P & %P P=%P % %⋮ $P
Unbiased
Estimator
(BLUE).
Pada
dasarnya
metode
OLS
meminimumkan jumlah kuadrat error. ) ( (⇒ = ( ( '
P+ ⇒
=
P
−
(2.10)
Dengan P adalah suatu vektor kolom " -unsur dari estimasi OLS
parameter regresi dan adalah suatu vektor kolom ! + 1 dari ! residual.
Untuk mengestimasi parameter model regresi linear berganda nilai parameter yang tidak diketahui sehingga jumlah error diperoleh ∑
digunakan metode OLS. Prosedur metode OLS dilakukan dengan memilih
⋯ ⋯ ⋱ ⋯
sekecil mungkin, sehingga dapat dinyatakan dengan: & % % % $
) & ( % (=% ⋮( % /' $
) &1 1 ( % ( − %1 ⋮ ( %⋮ ⋮ $1 / /'
⋮
/
⋮
/
)& ) (% ( (% ( ⋮ (% ⋮ ( / ' $ /'
Universitas Sumatera Utara
10
=
∑/N
−
= ∑/N
−
−
−
−
− ,
− ⋯−
,
−⋯−
,⋯,
(2.11)
secara parsial terhadap P , P , P , ⋯ , P
Kemudian, untuk menentukan jumlah kuadrat residualnya ∑/N
dengan meminimumkan
dan samakan dengan 0 maka dapat dituliskan: R∑ RP
R∑ RP
R∑ RP
⋮
R∑ RP
/
− P − P
= 2 S8 N /
= 2 S8 N
/
N /
= 2 S8
!P + P ∑
N
− P − P
− P
− P − P
− P − P
= 2 S8
+P ∑
− P
−⋯− P
: −1 = 0
− P
− ⋯− P
− ⋯− P
:−
= 0
− P
−⋯− P
:−
= 0
+⋯+ P ∑
:−
= 0
Jika persamaannya disederhanakan dan disusun maka akan menjadi: P ∑
+ P ∑
P ∑
+ P ∑
P ∑
⋮
+ P ∑
+ P ∑
+ P ∑
+ P ∑
=∑
+⋯+ P ∑
=∑
+⋯+ P ∑
+⋯+ P ∑
=∑ =∑
= P + P
dimana persamaan 2.12 disebut sebagai persamaan normal P
Dengan menjumlahkan persamaan
(2.12)
+ P
+ ⋯ +
untuk seluruh pengamatan ! memberikan persamaan pertama dalam
persamaan (2.12) kemudian mengalikannya dengan
pada kedua sisinya dan
menjumlahkan untuk seluruh ! maka dihasilkan persamaan kedua. Begitu dan menjumlahkan untuk seluruh !, dan seterusnya.
juga persamaan ketiga dalam persamaan (2.12) mengalikan kedua sisinya dengan
Universitas Sumatera Utara
11
P )& P (% ( %% P (% ⋮ '$ P
Dinyatakan dalam bentuk matriks, persamaan normal akan menjadi:
! &∑ % %∑ % ⋮ $∑
∑ ∑ ∑
∑ ∑ ∑
⋮
∑
∑
∑ ⋯ ⋯ ∑ ⋯ ∑ ⋮ ⋮ ⋯ ∑
⋮
P=
T
T
) & 1 ( % (=% ( ⋮ ( % ' $
1 ⋮
⋯ 1 )& ) ⋯ (% ( ⋯ (% ( ⋮ ⋮ (% ⋮ ( ⋯ /' $ /' (2.13)
Persamaan (2.13) diperoleh dari menurunkan persamaan mariks terhadap P ,
sehingga diperoleh: = −2
U V WV X UE
diperoleh:
−2 2
T
T
T
T
P=
+2
D
T
T
T
T
D
P=
T
Dengan
P , kemudian samakan hasil dengan 0, sehingga
T
P=0
T
P =2
P=
+2
T
T
T
D
=4
∑
∑
T
; kali dengan
D
! ⋮
T
P= /
/
T
∑
∑ ∑
D
⋮
/
sehingga diperoleh
T
/ /
D
/
Untuk menunjukkan bahwa ∑/N
(2.14)
⋯ ∑ ⋯ ∑ / ⋯ ⋮ ∑ ⋯
/
/
5
minimum, maka hasil turunan
pertama dari jumlah kuadrat residualnya harus diturunkan sekali lagi sehingga menghasilkan turunan kedua, dan nilainya harus lebih besar dari nol. Maka dapat dituliskan:
R ∑ RP
=
=
=2
R
RP
R
RP T
Y
R8
8−2
T T
− 2 PT
+2
T
T
RP
P:
+ PT
T
P: Z
Universitas Sumatera Utara
12
Dipastikan bahwa turunan kedua dari ∑/N
Sehingga nilai ∑/N
Karena matriks
terhadap P haruslah bernilai positif.
akan minimum apabila nilai 2
T
lebih besar dari nol.
terhadap P bernilai positif
adalah turunan positif dengan semua unsur diagonalnya
berbentuk kuadrat, maka turunan kedua dari ∑/N
yang artinya P =
T
T
D
T
minimum.
2.5.Pencilan (Outliers) Pencilan adalah suatu data yang menyimpang dari sekumpulan data yang lain. Pencilan diartikan pula sebagai pengamatan yang tidak mengikuti sebagian besar pola dan terletak jauh dari pusat data. (Ferguson, 1961)
Pengamatan yang dikategorikan sebagai pencilan mempunyai nilai Diasumsikan bahwa hubungan antara dua variabel + dan L diperkirakan
residual yang relatif besar untuk ukuran residual pada ketepatan pengamatan.
(2.1) dengan
, ⋯,
dengan garis lurus. Berdasarkan model regresi linear berganda pada persamaan dan
,
adalah parameter regresi untuk diestimasi.
Nilai kesalahan ( ) yang tidak diperhatikan dan diasumsikan berdistribusi normal.
2.5.1. Jenis Pencilan ,
,⋯,
,
,⋯,
Model regresi menggambarkan hubungan dari beberapa variabel bebas (
/
dengan variabel terikat (
/
. Model regresi
diperoleh dengan menggunakan metode estimasi ordinary least square (OLS). Metode OLS didasarkan pada asumsi bahwa terjadinya kesalahan pada model yang dihasilkan yang seharusnya berdistribusi normal. Karena dengan residual berdistribusi normal metode OLS memberikan estimasi parameter yang optimal bagi model regresi.
Metode OLS harus memenuhi asumsi dari Best Linear Unbiased Estimator (BLUE) dalam proses estimasinya. Jika data tidak memenuhi salah satu asumsi disebabkan adanya pencilan, maka metode OLS yang
Universitas Sumatera Utara
13
diperoleh menjadi tidak efisien. Keberadaan pencilan pada data mungkin terdapat pada variabel bebasnya ( ) ataupun variabel terikatnya ( ).
Pencilan pada arah-L akan memberikan nilai residual yang sangat besar (positif atau negatif). Hal ini disebabkan karena data pencilan pencilan pada arah- + memberikan pengaruh yang sangat besar pada mempunyai jarak yang sangat besar terhadap garis OLS. Sedangkan data
estimator metode OLS karena pencilan pada arah-+ disebut sebagai titik leverage. Secara umum, suatu pengamatan + , L
dikatakan suatu titik
nilai L ke dalam perhitungan, jadi titik + , L
tidak harus menjadi
leverage ketika + terletak jauh dari sebagian besar data pengamatan
dalam sampel. Sebagai catatan, suatu titik leverage tidak memasukkan pencilan pada regresi. Ketika + , L
dekat terhadap garis regresi yang
ditentukan dengan sebagian besar data, maka hal tersebut dapat
menyimpulkan bahwa + , L
diasumsikan sebagai titik leverage yang baik. Oleh karena itu, untuk adalah suatu titik leverage hanya merujuk
(karena pencilannya hanya + ). Titik + , L
pada kepotensialnya besar mempengaruhi koefisien-koefisien regresi
+ ,L
tidak selalu dilihat sebagai
penyebab pengaruh yang besar terhadap koefisien-koefisien regresi, karena bisa saja titik
tepat pada garis yang ditentukan
kecendrungannya dengan sejumlah besar himpunan data lainnya. Regresi linear berganda + , + , ⋯ , +
terletak pada suatu ruang
berdimensi ,. Suatu titik leverage tetap didefinisikan sebagai suatu titik 8+ , ⋯ , + [, L : dimana 8+ , ⋯ , + [ : merupakan titik-titik yang terpisah
besar pada koefisien regresi OLS, bergantung pada nilai aktual dari L , dari himpunan data. Suatu titik leverage yang berpotensial berpengaruh
akan tetapi dalam hal ini akan sulit mengidentifikasi titik-titik leverage karena berdimensi tinggi.
Universitas Sumatera Utara
14
2.5.2. Deteksi Pencilan Langkah awal yang harus dilakukan dalam mendeteksi pencilan yaitu dengan melihat kemungkinan bahwa pencilan merupakan data yang berpengaruh (terkontaminasi). Data pencilan dapat dikenali dengan memeriksa data mentahnya (raw) secara visual atau dari diagram pencar pada variabel bebas (Jacob, 2003: 394). Jika terdapat lebih dari dua variabel bebas, beberapa pencilan akan sangat sulit untuk dideteksi dengan pemeriksaan visual. Oleh karena itu, dibutuhkan bantuan lain pada pemeriksaan visual yang dapat membantu dalam pendeteksian pencilan.
Dalam statistik, data pencilan harus dilihat terhadap posisi dan sebaran data yang lainnya sehingga akan dievaluasi apakah data pencilan tersebut perlu dihapus atau tidak. Ada berbagai macam metode yang dapat digunakan untuk mendeteksi adanya data pencilan yang berpengaruh dalam koefisien regresi diantaranya adalah metode grafis, boxplot, scatter plot, leverage values, discrepancy, cook’s distance, DfBETA(s), Goodness of FIT,dan metode DfFITS. Namun pada skripsi ini pendeteksian pencilan yang akan dibahas menggunakan scatter plot, metode leverage values, discrepancy, dan metode DfFITS .
2.5.2.1. Leverage Values Pendeteksian
dengan
menggunakan
leverage
values
hanya
menggambarkan pengamatan yang terjadi pada variabel bebas. Leverage values menginformasikan seberapa jauh pengamatan tersebut dari nilai mean himpunan data variabel bebas. Jika hanya terdapat satu variabel bebas, leverage dapat dituliskan seperti: \ 7 ]^_ = ℎ = + /
GB D`a C ∑ bC
(2.15)
dengan ℎ adalah leverage values pengamatan ke- , ! banyaknya data,
adalah nilai untuk pengamatan ke- , cb adalah mean dari
, dan ∑ +
merupakan jumlah kuadrat ! pengamatan dari simpangan
dari
Universitas Sumatera Utara
15
meannya. Jika pengamatan ke- bernilai cb , maka bentuk kedua dari
persamaan (2.15) akan 0 dan ℎ akan memiliki nilai kemungkinan yang
jauh dari cb , maka
/
minimum . Misalkan pengamatan ke- nilai pada
nilai leverage akan naik. Nilai maksimum dari ℎ adalah 1 nilai mean dari leverage untuk !-pengamatan dalam suatu sampel adalah cdBB =
dengan " merupakan jumlah variabel bebas.
I
/
,
Penjabaran perhitungan leverage yang dijelaskan merupakan hitungan untuk pengamatan satu variabel bebas, dapat digeneralisasi untuk pengamatan dengan variabel bebas lebih dari satu. Untuk pengamatan nilai-nilai untuk setiap " variabel untuk pengamatan ke- ,
,
, ⋯,
dengan banyak variabel bebas, hal yang menarik adalah seberapa jauh
c , c , ⋯ , c . Perhitungan nilai ℎ
,
dari centroid variabel bebas. Centroid merupakan mean dari data, untuk pengamatan ini dengan
mengguanakan persamaan: e=
0
D
0
dengan e merupakan matriks ! + ! dan
(2.16) merupakan matriks ! + " +
1 . Dimana ! merupakan banyaknya data, dan " merupakan jumlah
koefisien (
variabel bebas ditambah 1 sebagai konstanta
. Diagonal
dari e berisi nilai leverage. Jadi, leverage untuk pengamatan ke- , ℎ
merupakan nilai dari baris ke- dan kolom ke- dari e.
pada nilai cutoff. Nilai ℎ yang melebihi nilai cutoff dideteksi sebagai Penentuan nilai yang memiliki leverage yang besar didasarkan
pencilan. Adapun nilai cutoff yang telah ditentukan menurut Jacob Cohen adalah
I
/
untuk data yang jumlahnya ! > 15, sedangkan untuk data
yang jumlahnya ! ≤ 15 digunakan cutoff
I
/
! + " + 1 . Dengan
! merupakan banyaknya data, dan " merupakan jumlah koefisien (
variabel bebas ditambah 1 sebagai nilai konstanta
.
Universitas Sumatera Utara
16
2.5.2.2. Discrepancy Mengidentifikasi pencilan menggunakan discrepancy yang banyak digunakan adalah dengan Externally Studientized Residuals. Externally pengamatan dihapuskan dari himpunan data. Misalkan h
studientized residuals dengan memisalkan jika data pencilan sebuah nilai yang
merupakan prediksi pengamatan ke- , tetapi pengamatan ke- dihapuskan dari himpunan data. Pencilan berkontribusi secara substansial terhadap c
. Sedangkan c
estimasi variansi residual sekitar garis regresi dan disimbolkan dengan iVj klmn
iVj klmn
untuk variansi residual dengan
pengamatan ke- yang merupakan pencilan dihapuskan dari himpunan data. Misalkan o sebagai perbedaan antara data asli,
− h
, dengan nilai
prediksi untuk pengamatan ke- yang berasal dari himpunan data dengan
pengamatan ke-
yang dihapuskan yaitu o =
. Externally
studientized residuals untuk pengamatan ke- , p dihitung dengan: p =
kB
qrsB
dimana o merupakan nilai residual yang dihapuskan: o =
tB
DdBB
(2.17)
(2.18)
dan nilai standar residual juga dapat dihitung dengan: kB
=u
`qvwxBsyz{ B DdBB
(2.19)
Jika persamaan (2.18) dan (2.19) dimasukkan kedalam persamaan (2.17) maka akan menjadi: p =
tB
u`qvwxBsyz{ B
DdBB
(2.20)
residuals lebih banyak digunakan karena mengikuti distribusi p dengan
Penentuan nilai pencilan berdasarkan nilai Externally studientized
o = ! − " − 1. Penentuan nilai cutoff-nya berdasarkan distribusi p, jika
Universitas Sumatera Utara
17
nilai p > p|m}Vn dengan derajat kepercayaan ~ , maka data tersebut
memiliki nilai discrepancy yang besar dan dikategorikan sebagai pencilan.
2.5.2.3. Metode DfFITS Difference fitted value FITS merupakan metode yang menampilkan nilai perubahan dalam harga yang diprediksi bilamana kasus tertentu dikeluarkan, yang sudah distandarkan. Perhitungan DfFITS di rumuskan sebagai berikut :
=p •
dBB
DdBB
F C
€
(2.21)
dimana p adalah studentized deleted residual untuk pengamatan ke- dan ℎ adalah nilai pengaruh untuk kasus ke- dengan: p =
u
/D D
•‚ƒ DdBB DtBC
W
(2.22)
adalah residual ke- dan JKG adalah jumlah kuadrat galat.
2u
I /
Suatu data yang mempunyai nilai absolute DfFITS lebih besar dari
maka didefinisikan sebagai pencilan, dengan " banyaknya variabel
bebas dan ! banyaknya observasi (Soemartini: 2007).
2.6. Regresi Robust Regresi robust merupakan metode yang penting untuk menganalisis suatu himpunan data yang mengandung pencilan. Regresi robust digunakan untuk mendeteksi pencilan dan memberikan hasil yang resisten terhadap adanya data pencilan. Menurut Aunuddin 1999, regresi robust tujuannya untuk mengatasi adanya data ekstrim serta meniadakan pengaruhnya terhadap hasil pengamatan tanpa terlebih dahulu melakukan identifikasi. Metode regresi robust merupakan metode yang mempunyai sifat:
Universitas Sumatera Utara
18
a. Sama baiknya dengan metode ordinary least square ketika semua asumsi terpenuhi dan tidak terdapat titik data yang berpengaruh. b. Dapat menghasilkan model regresi yang lebih baik daripada ordinary least square ketika asumsi tidak terpenuhi dan terdapat titik data yang berpengaruh. c. Perhitungan cukup sederhana dengan melakukan iterasi sampai memperoleh estimasi terbaik yang mempunyai standar error parameter yang paling kecil ataupun konvergen ke nol.
2.7. Least Trimmed Square (LTS) Estimasi least trimmed square adalah dengan high breakdown point yang dikenalkan oleh Roesseuw (1984). LTS merupakan suatu metode estimator parameter regresi robust untuk meminimumkan jumlah kuadrat h residual kelemahan metode OLS, yaitu dengan menggunakan sebanyak ℎ ℎ ≤ ! .
(fungsi objektif) dan sebagai metode alternatif robust untuk mengatasi d
„…Tq = S
:/
N
„…Tq
di mana:
h
: Estimasi least trimmed square
:‡ ˆ+‡ /
[In
ˆ
: kuadrat error yang diurutkan dari yang terkecil ke terbesar <
<
< … <
< … <
d
< … <
/
Jumlah h menunjukkan sejumlah subset data dengan kuadrat fungsi objektif terkecil. Nilai h pada persamaan diatas akan membangun breakdown point yang besar sebanding dengan 50%. Untuk mendapatkan nilai residual pada LTS, digunakan algoritma LTS menurut Rousseeuw dan Van Driessen (1999) sedangkan Willems dan Aels (2005) adalah gabungan FAST-LTS dan menentukan ! residual dengan menggunakan rumus: C-Step, yaitu dengan mengestimasi parameter
,
,
dan
. Kemudian
Universitas Sumatera Utara
19
=8
− P − P
d
Setelah itu menghitung ∑ NŠ dengan nilai
− P
−⋯− P
/
:
([In)
dengan ℎ = ‡ ˆ + ‡
ˆ pengamatan
terkecil. Tahapan-tahapan dilakukan sampai diperoleh nilai
residual terkecil dan konvergen.
2.8. Breakdown Point Breakdown point dari suatu regresi estimator adalah salah satu cara yang dapat digunakan untuk mengukur ke-robust-an suatu estimator. Breakdown point
merupakan proporsi minimal dari banyaknya pencilan dibandingkan seluruh data pengamatan. Salah satu regresi robust yang mempunyai breakdown point adalah regresi robust dengan metode Least Trimmed Square (LTS). Metode estimasi LTS mempunyai breakdown point 50%. Breakdown point 50% adalah breakdown point yang tinggi. Definisi T adalah sebuah estimator, Z adalah sebuah sampel dari !
pengamatan dimana (‹) = P . Misalkan ‹ 0 bagian ‹ dimana Œ dari ! pengamatan yang mengandung pencilan. Bias maksimal yang menyebabkan data menjadi rusak yaitu
^•(Œ; , ‹) = sup || (‹ 0) − (‹)|| ’W
Maka breakdown point ( /∗ ) dapat didefinisikan dengan Œ ∗ / ( , ‹) = Œ ! ” ; ^• (Œ; , ‹) ^o^\^ℎ ! ! p • ! Untuk OLS , dapat dilihat jika adanya pencilan cukup diperhatikan pada T untuk semua batas. Oleh karena itu, breakdown point sama dengan: ∗ /(
, ‹) =
/
(2.23)
Universitas Sumatera Utara