ALGORITMA PENDUGAAN MODEL REGRESI KEKAR MELALUI PENDUGA-M Nusar Hajarisman Jurusan Statistika, Universitas Islam Bandung, Jln. Purnawarman No. 63, Bandung 40116, Jawa Barat Indonesia
[email protected]
ABSTRACT The presence of outliers in the regression analysis of data will result in violation of the assumption that the distribution of error to be no longer normal. Thus the least squares method is no longer a proper method in regression analysis when data outliers appear. Therefore a robust method resistant to the normality assumption violations needs to be considered. The method will be discussed in this paper is a robust method (and also) resistant to outliers in the data regression analysis is a method of robust regression estimators through M-estimator. This paper will discuss about the procedure or the prediction algorithm of robust regression model through M-estimators, where the observed function effects is the influence function of Andrew, Biweight (Tukey), Hampel, and Huber. M-estimators should be solved iteratively, where the method used in this problem is to use iteratively reweighted least square (IRWLS). Keywords: robust statistics, M-estimator, the influence function, iteratively reweighted least square, outliers
ABSTRAK Kehadiran data pencilan dalam analisis regresi akan menyebabkan terjadinya pelanggaran asumsi terutama bahwa distribusi dari galat tidak lagi menjadi normal. Dengan demikian metode kuadrat terkecil tidak lagi menjadi metode yang tepat dalam analisis regresi ketika muncul data pencilan. Oleh karena itu perlu dipertimbangkan terutama suatu metode yang kekar (robust) atau resisten terhadap pelanggaran asumsi kenormalan. Metode yang akan dibahas dalam makalah ini adalah suatu metode yang kekar (dan juga) resisten terhadap adanya data pencilan dalam melakukan analisis regresi adalah metode regresi kekar melalui penduga-M (M-estimator). Dalam makalah ini akan dibahas mengenai prosedur atau algoritma pendugaan model regresi kekar melalui penduga-M, dimana fungsi pengaruh yang diamati adalah fungsi pengaruh Andrew, Biweight (Tukey), Hampel, dan Huber. Penduga-M ini harus diselesaikan secara iteratif, dimana metode yang digunakan dalam masalah ini adalah menggunakan iteratively reweighted least square (IRWLS). Kata kunci: statistik tegar, penduga M, fungsi pengaruh, iteratively reweighted least square, data pencilan
Algoritma Pendugaan...... (Nusar Hajarisman)
63
PENDAHULUAN Analisis statistika klasik pada umumnya berdasarkan pada model-model parametrik. Biasanya, asumsi dibuat pada bagian terstruktur dan stokastik dari model dan prosedur optimal diturunkan berdasarkan asumsi-asumsi tersebut. Sebagai contoh, misalnya prosedur pendugaan melalui metode kuadrat terkecil atau metode kemungkinan maksimum. Banyak sekali prosedur statistika klasik yang sudah diketahui bukan merupakan prosedur yang tegar (robust), karena hasil-hasil dari prosedur tersebut sangat bergantung pada asumsi stokastik yang eksak dan pada sifat-sifat dari sedikit pengamatan dalam sampel. Prosedur ini akan optimal pada saat model yang diasumsikan betul-betul terpenuhi, tetapi akan menjadi bias dan/atau tidak efisien ketika timbul adanya simpangan yang relatif kecil dari model. Akibatnya hasil-hasil yang diperoleh dari prosedur klasik menjadi keliru jika diterapkan pada data sesungguhnya. Teori mengenai statistik tegar (robust statistics) adalah berkenaan dengan penyimpangan dari asumsi pada model dan berkenaan dengan pembentukan prosedur statistika yang masih handal dan cukup efisien dalam pembentukan model. Dengan demikian, teori statistika kekar ini dapat dipandang sebagai teori statistika yang menangani masalah pendekatan model parametrik, serta dapat digunakan untuk menjembatani antara pendekatan parametrik Fisher dengan pendekatan nonparametrik. Saat ini statistik kekar sudah berumur hampir 50 tahun. Sejumlah makalah atau jurnal yang ditulis oleh Tukey (1960), Huber (1964), dan Hampel (1968) dapat dijadikan dasar dalam pengembangan teori dan aplikasi pada statistik kekar modern. Salah satu pengembangan dari statistik kekar ini adalah pada pemodelan regresi. Sebagaimana yang telah dikatahui bahwa banyak teknik analisis regresi didasarkan pada metode kuadrat terkecil biasa (ordinary least square, OLS). Akan tetapi kita perlu hati-hati dengan adanya data pencilan dalam suatu gugus data tertentu, dimana munculnya data pencilan dapat disebabkan oleh banyak hal, misalnya adanya kesalahan dalam pencatatan, fenomena alam yang tidak biasa karena adanya bencana alam, atau mungkin saja bahwa anggota berasal dari populasi yang berbeda. Kehadiran data pencilan dalam analisis regresi, seringkali memberikan hasil dari analisis regresi menjadi tidak masuk akal, misalnya saja bahwa tanda dari koefisien regresi menjadi berubah. Secara umum, asumsi pemodelan yang umum adalah asumsi tentang normalitas dan independensi dari galat acak. Dengan adanya data pencilan, maka nantinya akan terjadi pelanggaran asumsi tersebut terutama bahwa distribusi dari galat tidak lagi menjadi normal. Dengan demikian metode kuadrat terkecil tidak lagi menjadi metode yang tepat dalam analisis regresi ketika muncul data pencilan. Perlu diketahui bahwa sifat-sifat dari penduga kuadrat terkecil adalah lebih impresif (mempunyai varians yang minimum diantara semua penduga takbias lainnya) di bawah kondisi normalitas dibandingkan dengan suatu kondisi dimana asumsi kenormalannya dilanggar (varians minimum diantara semua penduga takbias linear lainnya). Hal ini mempunyai makna bahwa ketika distribusi galatnya tidak normal, maka alternatif dari prosedur kuadrat terkecil perlu dipertimbangkan terutama suatu metode yang kekar (robust) atau resisten terhadap pelanggaran asumsi kenormalan. Metode yang akan dibahas dalam makalah ini adalah suatu metode yang kekar (dan juga) resisten terhadap adanya data pencilan dalam melakukan analisis regresi adalah metode regresi kekar melalui penduga-M (M-estimator). Dalam makalah ini akan dibahas mengenai prosedur atau algoritma pendugaan model regresi kekar melalui penduga-M, dimana fungsi pengaruh yang diamati adalah fungsi pengaruh Andrew, Biweight (Tukey), Hampel, dan Huber. Penduga-M ini harus diselesaikan secara iteratif, dimana metode yang digunakan dalam masalah ini adalah menggunakan iteratively reweighted least square (IRWLS).
64
Jurnal Mat Stat, Vol. 11 No. 1 Januari 2011: 63-74
Model Regresi Kekar Untuk menunjukkan bagaimana perlunya penggunaan alternatif dari metode kuadrat terkecil pada saat terjadi suatu pengamatan yang nonnormal, perhatikan model regresi linear sederhana berikut: (1) yi = β 0 + β1 xi + ei , i = 1, 2,..., n dimana residu merupakan variabel acak saling bebas yang mengikuti distribusi eksponensial ganda
f ( ei ) =
1 − ei /σ , − ∞ < ei < ∞ e 2σ
(2)
Distribusi ini lebih menunjuk di tengah daripada normal dan ekor dari nol sebagaimana |ei| menuju tak hingga. Namun, karena fungsi kepekatan menuju ke nol sebagaimana
e
− ei
juga menuju ke nol dan
− ei2
menuju ke nol, kita lihat bahwa distribusi fungsi kepekatan normal menuju ke nol sebagaimana e eksponensial ganda memiliki ekor yang lebih landai daripada normal. Di sini akan menggunakan metode kemungkinan maksimum untuk menduga β0 dan β1. Fungsi kemungkinannya adalah n ⎛ n ⎞ 1 1 exp ( − ei / σ ) = exp L ( β 0 , β1 ) = (3) ⎜ − ei / σ ⎟ n (2σ ) ⎝ i =1 ⎠ i −1 2σ
∑
∏
Dengan demikian untuk memaksimumkan fungsi kemungkinan akan dengan cara meminimumkan
∑
n
e i =1 i
, jumlah absolut galat. Diketahui bahwa metode kemungkinan maksimum
yang diterapkan pada model regresi dengan galat normal akan membawa pada kriteria kuadrat terkecil. Jadi asumsi mengenai distribusi galat dengan ekor yang lebih landai daripada normal mempunyai makna bahwa metode kuadrat terkecil tidak lagi prosedur yang optimal. Perlu dicatat bahwa kriteria absolut galat akan memboboti data pencilan jauh lebih berat dibandingkan dengan metode kuadrat terkecil. Meminimumkan jumlah absolut galat dikenal sebagai masalah regresi L1-norm, sedangkan kuadrat terkecil merupakan masalah regresi L2-norm. Masalah regresi L1-norm dapat diformulasikan sebagai masalah pemograman linear. Misalkan ci dan di (i = 1, 2, ..., n) merupakan simpangan positif dan negatif disekitar garis regresi. Kemudian koefisien regresi
βˆL1 ,0 dan βˆL1 ,1 yang meminimumkan jumlah absolut galat adalah solusi dari
masalah pemograman linear. Masalah regresi kekar pada regresi linear sederhana dapat diperluas pada regresi berganda. Secara umum, masalah pemograman linear mempunyai n pembatas (constraint), satu untuk setiap pengamatan, serta p + 2n variabel (satu variabel untuk setiap parameter model dan 2n variabel menunjukkan simpangan positif dan negatif). Akan tetapi, algoritma pemograman yang baku tidak menjamin dapat menghasilkan penduga bagi β yang takbias (Montgomery dan Peck, 1990). Masalah regresi L1-norm merupakan kasus khusus dari regresi LP-norm, dimana parameter model dipilih sedemikian rupa untuk meminimumkan
∑
n
ε i =1 i
p
(1 ≤ p ≤ 2). Untuk 1 < p < 2 akan
menghasilkan masalah pemograman nonlinear. Forsythe (1972) telah mempelajari prosedur ini untuk model regresi biasa melalui simulasi Monte Carlo dengan menggunakan beberapa distribusi galat yang nonnormal. Dia menyatakan bahwa bahwa p = 1.5 merupakan pilihan yang baik yang dapat
Algoritma Pendugaan...... (Nusar Hajarisman)
65
menghasilkan suatu penduga yang lebih baik dibandingkan dengan penduga kuadrat terkecil pada saat galatnya tidak berdistribusi normal. Berikut ini akan dibahas mengenai fungsi pengaruh dan Mestimator sebagai dasar dalam memahami pembentukan model regresi kekar.
Fungsi Pengaruh Suatu ukuran yang biasa digunakan untuk melihat bagaimana suatu titik data tertentu mempengaruhi hasil-hasil dari analisis regresi diberikan oleh suatu fungsi pengaruh (influence function). Fungsi ini pada khususnya muncul pada masalah kuadrat terkecil. Suatu ilustrasi mengenai fungsi pengaruh ini dimulai dengan fungsi dugaan yang diberikan oleh
yˆ i = x`i βˆ
( i = 1, 2,..., n )
(4)
dimana βˆ adalah vektor penduga kuadrat terkecil. Metode kuadrat terkecil dilakukan sedemikian rupa sehingga meminimumkan jumlah kuadrat residu. Hal ini akan menghasilkan βˆ sebagai solusi dari
∑
n x i =1 i i
ε
= 0, dimana ε i = yi − yˆi
(5)
Persamaan (5) memberikan Ilustrasi yang baik dari pengaruh yang diberikan oleh titik data dengan residu yang besar. Misalkan kita melihat bentuk yang lebih umum pendugaan sebagai solusi untuk n ⎡εi ⎤ x =0 ψ (6) i =1 ⎢ σ ⎥ i ⎣ ⎦ Metode kuadrat terkecil dalam Persamaan (5) merupakan kasus khusus dari rumusan dalam Persamaan (6). Fungsi ψ(•) disebut sebagai fungsi pengaruh. Dari Persamaan (5) terlihat jelas bahwa dalam kasus kuadrat terkecil, pengaruh yang diberikan oleh titik data ke-i adalah proporsional terhadap residu εi. Dengan kata lain, fungsi pengaruh adalah linear dalam εi, sebagai hasil dari minimalisasi dari jumlah kuadrat residu. Suatu prosedur yang resisten terhadap data pencilan dapat dirumuskan melalui Persamaan (6) dengan cara memilih fungsi pengaruh ψ(•) sehingga tidak memungkinan bahwa suatu titik data dengan residu yang besar untuk mengesampingkan pengaruh yang ada.
∑
M-Estimator Penduga koefisien dari model regresi linear yang muncul dalam yi − yˆi pada Persamaan (5) untuk kasus metode kuadrat terkecil dan kasus yang lebih umum seperti pada Persamaan (6). Solusi untuk koefisien regresi pada Persamaan (6) disebut juga sebagai M-estimator. Fungsi pengaruh ψ(•) dipilih secara umum dengan cara titik data yang berisi galat besar akan diberi bobot kecil. Terdapat banyak kriteria yang dapat digunakan sebagai fungsi pengaruh, seperti: Huber, Andrew, Hampel, dan Biweight.
Gambar 1 Berbagi Contoh Fungsi Pengaruh Kekar
66
Jurnal Mat Stat, Vol. 11 No. 1 Januari 2011: 63-74
Fungsi Huber mempunyai fungsi ψ(•) yang monoton dan tidak memberikan bobot pada residu yang besar seperti pada kuadrat terkecil. Sedangkan tiga fungsi ψ(•) berikutnya merupakan fungsi yang menurun sebagaimana residu yang membesar. Misalnya, untuk fungsi Biweight mempunyai penurunan yang halus, artinya fungsi ψ(•) adalah asimptotik ke nol untuk |z| yang besar. Sedangkan fungsi Andrew dan Hampel mempunyai penurunan yang keras, artinya fungsi ψ(•) sama dengan nol untuk |z| yang cukup besar. Fungsi pengaruh Huber (1973) diberikan oleh
ψ (ε dimana z adalah suatu konstanta dan
* i
)
⎧ ε i* , ⎪ =⎨ * ⎪⎩ z sgn ε i ,
( )
ε i* = ε i / σ
ε i* < z ε i* ≥ z
.
Hampel (1974) mendefinisikan fungsi pengaruh untuk tetap menjaga kecocokan model terutama untuk data yang sangat memencil, yang didefinisikan sebagai berikut:
ψ ( ε i* )
⎧ ε i* , ε i* < a ⎪ ⎪ a sgn ε i* , a ≤ ε i* < b =⎨ ⎪ ⎪ c − ε i* / ( c − b ) a sgn ε i* , b ≤ ε i* ≤ c ⎩
{(
)
( )
}
( )
Dimana a, b, dan c adalah suatu konstanta. Sedangkan fungsi pengaruh untuk Andrew dan Biweight masing-masing diberikan oleh:
Andrew
Biweight
(
)
⎧ sin ε i* / z , ε i* ≤ zπ ⎪ ψ ε =⎨ ε i* > zπ ⎪⎩0, ⎧0, ε i* > z ⎪ 2 ⎪ * ψ ε i = ⎨ ε i* 1 − ε i*2 , ε i* < 1 ⎪ ε i* ≥ 1 ⎪ 0, ⎩
( ) * i
( )
(
)
HASIL DAN PEMBAHASAN Algoritma Pendugaan Regresi Kekar dengan M-Estimator Pada bagian sebelumnya telah dinyatakan bahwa masalah regresi L1-norm muncul secara alamiah dari pendekatan kemungkinan maksimum dengan galat atau residu eksponensial ganda. Secara umum, kita dapat mendefinisikan suatu kelas penduga kekar yang meminimumkan suatu fungsi ρ dari residu, sebagai contoh misalnya
Algoritma Pendugaan...... (Nusar Hajarisman)
67
∑ ρ (ε ) = min ∑ρ( y − x β ) β n
min β
n
i
i
i =1
` i
(7)
i =1
dimana xi` menyatakan baris ke-i dari matriks X. Suatu penduga dari jenis ini disebut sebagai Mestimator, dimana M adalah singkatan dari maximum likelihood (kemungkinan maksimum). Yaitu, suau fungsi ρ yang dihubungkan dengan fungsi kemungkinan untuk pilihan yang tepat dari distribusi galatnya. Sebagai contoh, jika metode kuadrat terkecil digunakan (yang berarti bahwa distribusi galatnya adalah normal), maka ρ ( z ) = 12 z 2 , untuk –∞ < z < ∞. Perlu diketahui bahwa M-estimator tidak perlu berskala invariant. Untuk memperoleh versi skala invariant dari penduga ini, maka perlu menyelesaikan persamaan:
⎛ εi ⎝ s
n
min β
⎞ ⎟ = min β ⎠
∑ρ⎜ i =1
n
⎛ yi − xi`β ⎞ ⎟ s ⎝ ⎠
∑ρ⎜ i =1
(8)
dimana s merupakan penduga kekar dari skala. Menurut Montgomery dan Peck (1990) suatu pilihan yang cukup populer untuk s adalah
s = median ε i − median ( ε i ) / 0.6745
Nilai 0.6745 memberikan s akan mendekati penduga takbias bagi σ jika n cukup besar dan distribusi galatnya adalah normal. Sedangkan menurut Myers (1990) pilihan yang digunakan untuk s adalah
s = 1.5 median ε i Persamaan yang dinyatakan dalam (6) atau (8) merupakan persamaan yang nonlinear sehingga harus diselesaikan secara iteratif. Sudah terdapat banyak program komputer, seperti SAS atau R, yang menyediakan pendugaan-M ini. Perlu diketahui bahwa salah satu pendekatan sebagai solusi secara iteratif ini dilakukan melalui kuadrat terkecil terboboti yang diulang. Persamaan (6) di atas dapat dituliskan kembali dalam bentuk:
ψ ( ε i* )
∑ (ε ) (ε ) x n
i =1
* i
* i
i
( )
=0
(9)
( )
dimana ε i* adalah residu yang diskalakan, yaitu ε i* = εi/s. Persamaan (9) adalah bentuk dari: n
∑wε x
* i i i
i =1
=0
(10)
( )( )
* * dimana wi = ψ ε i / ε i . Kemudian, Persamaan (10) merupakan solusi untuk meminimumkan
∑
w ( yi − yˆi ) , yaitu kuadrat terkecil diboboti. Jadi regresi terbobobti dapat digunakan sebagai i =1 i n
2
suatu metode komputasi dalam perhitungan M-estimator. Dalam hal ini bobot wi bergantung pada residu yang dengan sendirinya juga bergantung pada koefisien regresinya. Berikut ini adalah deskripsi dari algoritma pendugaan model regresi kekar melalui Mestimator: − Tentukan vektor penduga awal βˆ (0) untuk memperoleh residu ε i(0) . −
68
(
)(
)
Berdasarkan residu awal, hitung s(0) dan pembobot awal wi(0) = ψ ε i*,(0) / ε i*,(0) .
Jurnal Mat Stat, Vol. 11 No. 1 Januari 2011: 63-74
−
Gunakan metode kuadrat terkecil terboboti untuk memperoleh penduga parameter kekar yang baru: −1 βˆ ( t ) = X`W (t ) X X`W ( t ) y , untuk t = 0
(
R
− − −
)
Tentukan residu yang baru, nilai s yang baru, demikian juga pembobot w yang baru. Kembali ke langkah 3. Ulangi langkah 3 sampai dengan 5 sampai diperoleh kekonvergenan.
Prosedur ini disebut juga sebagai iteratively reweighted least square (IRWLS). Prosedur ini juga sangat bergantung pada pemilihan fungsi pengaruh ψ(•). Sebagai contoh, misalnya dalam kasus fungsi pengaruh Huber, kita harus memilih konstanta z. Jelas, jika z bernilai besar, katakan saja z = 3, maka penduga kekar ini akan hampir sama saja dengan penduga kuadrat terkecil, bergantung pada distribusi dari residunya. Nilai konstanta z yang digunakan biasanya adalah antara 1.0 sampai dengan 2.0 (Aunuddin, 2000) dan Hoaglin dan Moore (1992). Dalam sistem SAS, untuk fungsi Huber
konstanta yang digunakan adalah bernilai z = 1.345. Sedaangkan untuk fungsi pengaruh Andrew dan Biweight masing-masing menggunakan konstanta sebesar z = 1.339 dan z = 4.685. Sementara itu untuk fungsi pengaruh Hampel terdapat tiga buah konstanta yang digunakan, dimana dalam sistem SAS digunakan a = 2, b = 4, dan c = 8. Tabel 1 Data Proses Pengoperasian Pembersihan Arang Nomor
x1
x2
x3
y
1 2 3 4 5 6 7 8 9 10 11 12
1.5 1.5 1.5 1.5 2.0 2.0 2.0 2.0 2.5 2.5 2.5 2.5
6.0 6.0 9.0 9.0 7.5 7.5 7.5 7.5 9.0 9.0 6.0 6.0
1315 1315 1890 1890 1575 1575 1575 1575 1315 1315 1890 1890
243 261 244 285 202 180 183 207 216 160 104 110
Sumber: Myers, R.H. (1990). Classical and Modern Regression with Applications. Second Edition. Massachussets: PWS-KENT Publishing.
Contoh Aplikasi
Dalam bagian ini akan dibahas suatu kasus untuk lebih memahami penerapan pemodelan regresi kekar melalui penduga-M ini dalam praktek. Dalam hal ini, data yang dipakai adalah data yang dibuat oleh Departemen Pertambangan dan Energi Amerika Serikat dan dianalisis oleh Pusat Konsultasi Statistik, Viginia Politechnic Institut dan State University, Blacksburg, Virginia, pada tahun 1979 (Myers, 1990). Penelitian yang dilakukan adalah untuk mengetahui pengaruh dari tiga buah faktor kuantitatif terhadap proses pengoperasian pembersihan arang. Sejenis polimer akan digunakan untuk membersihkan arang itu dan sebagai variabel responnya, yi, adalah banyaknya zat pada yang terhapus serta diukur dalam satuan mg/l. Jadi, dalam percobaan ini akan diukur efisiensi dari proses pengoperasian arang itu yang dipengaruhi oleh faktor-faktor sebagai berikut: x1: prosentase zat padat, x2: pH dalam tangki, x3: satuan kuatnya aliran dari polimer pembersih, dalam ml/detik. Ketiga faktor tersebut akan dikontrol selama proses percobaan dan urutan dari percobaan itu sendiri bersifat acak. Data percobaan itu diberkan dalam Tabel 1.
Algoritma Pendugaan...... (Nusar Hajarisman)
69
Melalui prosedur analisis regresi klasik, diperoleh persamaan regresi yang diperoleh melalui metode kuadrat terkecil sebagai berikut:
Tabel 2 Model Regresi yang Diperoleh dari Metode Kuadrat Terkecil
Dimisalkan, melalui prosedur klasik telah memenuhi persyaratan bahwa model tersebut dianggap baik. Selanjutnya ingin diketahui apakah dalam data terdapat pengamatan yang berpengaruh. Kita perlu mengamati terlebih dahulu ada tidaknya data pencilan yang berpotensi sebagai data yang berpengaruh. Untuk itu kita akan menghitung residu, R-student, dan nilai leverage yang akan dijadikan patokan sebagai ukuran untuk menentukan data pencilan.
Tabel 3 Nilai Residu, R-Student, dan Leverage dari Metode Kuadrat Terkecil No. 1 2 3 4 5 6 7 8 9 10 11 12
Residu 5.0287 23.0287 -34.9021 60.7106 -2.7553 -24.7553 -21.7553 2.2447 26.8510 -29.1490 -5.2734 0.7266
R-Student 0.209 0.955 -1.753 2.374 -0.0902 -0.810 -0.712 0.0735 1.135 -1.232 -0.226 0.0311
Leverage 0.4295 0.4295 0.6111 0.3585 0.0847 0.0847 0.0847 0.0847 0.4512 0.4512 0.4651 0.4651
Dari hasil analisis diketahui bahwa terdapat nilai R-Student yang lebih besar daripada 2, yaitu pada pengamatan ke-4, dimana t4 = 2.8695, dengan nilai residu yang paling besar yaitu 60.7106. Akan tetapi kalau kita perhatikan nilai laverage yang telah diperoleh pada titik pengamatan ke-4 itu diperoleh h44 = 0.3585 yang lebih kecil daripada nilai kritis 2p/n = 0.67, tetapi harga tersebut masih lebih besar daripada nilai rata-rata leverage p/n, yaitu 0.33. Perhatikan pula data pengamatan ke-3 yang mempunyai nilai leverage paling besar, yaitu sebesar 0.6111. Dengan demikian kita perlu mencurigai data tersebut sebagai data yang berpengaruh pada persamaan regresi di atas. Lalu bagaimana hasil-hasil yang diperoleh dari analisis regresi kekar khususnya dalam hal masalah adanya data pencilan ini. Tabel 4 sampai dengan Tabel 7 masing-masing memberikan hasil penduga parameter model regresi kekar melalui penduga-M untuk fungsi pengaruh Andrew, Biweight, Hampel, dan Huber. Perlu diketahui bahwa pendugaan parameter ini diperoleh melalui prosedur IRWLS.
70
Jurnal Mat Stat, Vol. 11 No. 1 Januari 2011: 63-74
Tabel 4 Model Regresi Kekar dengan Fungsi Pengaruh Andrew
Tabel 5 Model Regresi Kekar dengan Fungsi Pengaruh Biweight
Tabel 6 Model Regresi Kekar dengan Fungsi Pengaruh Hampel
Tabel 7 Model Regresi Kekar dengan Fungsi Pengaruh Huber
Apabila kita perhatikan signifikansi dari masing-masing parameter yang berada di dalam model, maka hasil-hasil yang diberikan melalui metode kuadrat terkecil sejalan dengan apa yang dihasilkan melalui fungsi pengaruh Hampel dan Huber. Dalam hal ini parameter β3 menunjukkan suatu parameter yang tidak berbeda secara nyata dengan nol, dimana galat baku yang diperoleh baik melalui metode kuadrat terkecil, fungsi Hampel, maupun fungsi Huber adalah hampir sama sehingga memberikan p-value yang besar (lebih dari 10%). Sementara itu perbedaan hasil diberikan oleh fungsi pengaruh Andrew dan Biweight dengan apa yang diberikan oleh metode kuadrat terkecil. Dalam hal ini galat baku yang dihasilkan melalui fungsi pengaruh Andrew dan Biweight untuk parameter β3 lebih kecil dibandingkan galat baku yang diberikan metode kuadrat terkecil (nilai penduganya hampir sama), sehingga memberikan nilai statistik t yang lebih besar. Akibatnya p-value untuk parameter tersebut menjadi lebih kecil (di bawah 5%). Hal ini berarti bahwa penduga untuk paramete β3 menurut fungsi Andrew dan Biweight adalah signifikan secara statistik.
Algoritma Pendugaan...... (Nusar Hajarisman)
71
Hasil-hasil mengenai nilai residu dan bobot untuk masing-masing fungsi pengaruh yang diamati dalam makalah ini disajikan pada Tabel 8. Untuk semua fungsi pengaruh yang diamati terlihat bahwa pengamatan ke-4 memberikan nilai residu absolut yang paling besar dibandingkan dengan pengamatan lainnya. Untuk fungsi pengaruh Andrew dan Biweight tampak memberikan nilai residu absolut yang jauh lebih besar dibandingkan dengan residu absolut yang diperoleh melalui fungsi Hampel dan Huber. Perlu dicatat di sini bahwa nilainilai residu yang diperoleh melalui fungsi Hampel perilakunya sama dengan apa yang dihasilkan melalui metode kuadrat terkecil biasa. Lebih khusus lagi bobot yang diperoleh melalui fungsi Hampel untuk semua pengamatan bernilai satu. Hal ini tampaknya menunjukkan bahwa menurut fungsi Hampel data tidak mengandung pencilan, sehingga diberi bobot yang sama.
Tabel 8 Nilai Residu dan Bobot untuk Empat Buah Fungsi Pengaruh Andrew
Biweight
Hampel
Huber
Residu
Bobot
Residu
Bobot
Residu
Bobot
Residu
Bobot
-7.1776 10.8224 2.7438 94.9359 5.4581 -16.5419 -13.5419 10.4581 34.9517 -21.0483 -1.6171 4.3829
0.98087 0.95682 0.99719 0.00000 0.98891 0.90088 0.93289 0.95964 0.60223 0.84253 0.99902 0.99284
-7.1806 10.8194 2.7438 94.9456 5.4670 -16.5330 -13.5330 10.4670 34.9876 -21.0124 -1.6173 4.3827
0.98122 0.95762 0.99725 0.00000 0.98909 0.90247 0.93410 0.96031 0.60220 0.84495 0.99904 0.99298
5.0287 23.0287 -34.9021 60.7106 -2.7553 -24.7553 -21.7553 2.2447 26.8510 -29.1490 -5.2734 0.7266
1.00000 1.00000 1.00000 1.00000 1.00000 1.00000 1.00000 1.00000 1.00000 1.00000 1.00000 1.00000
0.5194 18.5194 -19.9377 73.8045 0.1295 -21.8705 -18.8705 5.1295 28.1995 -27.8005 -3.6490 2.3510
1.00000 1.00000 1.00000 0.50511 1.00000 1.00000 1.00000 1.00000 1.00000 1.00000 1.00000 1.00000
Pada data pengamatan ke-4, residu yang diperoleh melalui fungsi Andrew dan Huber masing-masing adalah 94.9359 dan 94.9456, sehingga keduanya diberi bobot sebesar nol. Sementara itu untuk data pengamatan lainnya diberi bobot bervariasi berkisar antara 0.60 sampai dengan 0.99 bergantung pada besaran dari residunya. Sebagai contoh misalnya untuk data pengamatan ke-9 mempunyai nilai residu kedua terbesar menurut fungsi Andrew dan Biweight, sehingga untuk pengamatan tersebut diberi bobot yang relatif lebih kecil dibandingkan dengan pengamatan lainnya, yaitu sebesar 0.60223 untuk fungsi Andrew dan 0.60220 untuk fungsi Biweght. Berdasarkan hasil pembobotan dari fungsi pengaruh Andrew dan Biweight dapat dikatakan bahwa semakin besar residunya (dalam bentuk absolut), maka bobot yang diberikan pada pengamatan tersebut menjadi lebih kecil. Bahkan untuk suatu pengamatan dengan residu absolut terbesar oleh kedua fungsi ini, baik Andrew maupun Biweight, akan diberi bobot nol. Sementara itu, pembobotan yang diberikan oleh fungsi pengaruh Huber hanya akan memberikan bobot yang lebih kecil daripada satu untuk pengamatan dengan residu absolut yang paling besar. Sebagai contoh, misalnya untuk pengamatan ke-4 mempunyai residu terbesar, yaitu sebesar 73.8045. Bobot yang diberikan pada pengamatan tersebut adalah sebesar 0.50511, sementara itu bobot yang diberikan pada pengamatan lainnya adalah bernilai satu.
72
Jurnal Mat Stat, Vol. 11 No. 1 Januari 2011: 63-74
PENUTUP Sifat-sifat kekonvergenan dari penduga-M ini sangat bergantung pada nilai awal yang ditentukan. Dalam banyak kasus, para peneliti cukup puas dengan menggunakan rata-rata residu absolut sebagai kriteria kekonvergenannya. Dalam banyak kasus, para peneliti cukup puas dengan menggunakan rata-rata residu absolut sebagai kriteria kekonvergenan. Pada saat prosedur model regresi kekar, maka nilai rata-rata residu absolutnya akan menurun (dengan asumsi bahwa beberapa data pengamatan mempunyai bobot yang mengecil). Hal ini yang dapat dipelajari dari masalah pemodelan regresi kekar adalah bahwa pemberian bobot hanya bergantu pada nilai residunya. Padahal suatu data pengamatan yang dianggap sebagai pencilan tidak saja mempunyai nilai residu (atau mungkin residu yang dibakukan) yang besar tetapi juga bisa dari suatu pengamatan yang mempunyai nilai leverage yang besar. Namun kalau diperhatikan lebih jauh bahwa algoritma pendugaan model regresi melalui penduga-M ini tidak melibatkan nilai leverage. Kemudian, sebagaimana yang yang telah dinyatakan sebelumnya, tujuan dari analisis regresi kekar adalah untuk memberikan suatu alternatif dari metode kuadrat terkecil pada saat adanya data pencilan. Kita juga perlu memandang regresi kekar ini sebagai metode untuk mendiagnosa data pencilan. Jelas bahwa untuk sembarang titik data pengamatan yang dicurigai sebagai data pencilan akan diberi bobot yang lebih kecil daripada satu. Akan perlu dicatat bahwa bahwa fungsi utama daripada algoritma pemodelan regresi kekar ini adalah sebagai metode pendugaan, bukan sebagai alat diagnosis. Selanjutnya, koefisien regresi kekar ini adalah lebih superior dibandingkan dengan metode kuadrat terkecil khususnya dalam hal distribusi dari galat yang mempunyai ekor yang lebih landai. Sekali lagi, dalam banyak situasi terutama dalam mendeteksi data pencilan sudah banyak metode yang dapat digunakan. Para peneliti dalam menghadapi data pencilan ini tidak lagi perlu membuang data pencilan, bahkan suatu data pencilan yang berpotensi sebagai data berpengaruh. Dengan demikian, model regresi kekar ini dapat digunakan untuk membentuk regresi dimana didalamnya terdapat data pencilan. Selain itu model regresi kekar ini juga mempunyai aspek diagnosisnya, serta menawarkan suatu penduga parameter yang superior dibandingkan dengan metode kuadrat terkecil terutama dalam suatu situasi yang nonideal.
DAFTAR PUSTAKA Barnett, V., & Lewis T. (1984). Outliers in Statistical Data, Second Edition. New York: John Wiley & Sons. Belsley, D.A., Kuh, E., & Welsch, R.E. (1980). Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. New York: John Wiley & Sons. Chatterjee, S., & Hadi, A.S. (1988). Sensitivity Analysis in Linear Regression. New York: John Wiley & Sons. Cook, R.D., & Weisberg, S.. (1982). Residuals and Influence in Regression. London: Chapman and Hall. Graybill, F.A. (1976). Theory and Application in Linear Model. Boston, Massachusetts: Duxbury Press. Hampel, F. (2001). Robust Statistics: A Brief Introduction and Overview. Research Report in Symposium “Robust Statistics and Fuzzy Techniques in Geodesy and GIS” held in ETH Zurich, March 12-16, 2001.
Algoritma Pendugaan...... (Nusar Hajarisman)
73
Hoaglin, D. C., and Moore, D. S. (1992) Perspectives on Contemporary Statistics. New York: The Mathematical Association of America. Myers, R.H. (1990). Classical and Modern Regression With Applications, Second Edition. Massachusetts: PWS-Kent Publishing. Montgomery, D.C. and Peck, E.A. (1992). Introduction To Linear Regression Analysis. New York: John Wiley & Sons. Ronchetti, E. (2006). The Historical Development of Robust Statistics. ICOTs-7.
74
Jurnal Mat Stat, Vol. 11 No. 1 Januari 2011: 63-74