ESTIMASI PARAMETER DAN UJI HIPOTESIS PADA MODEL LINEAR MULTIVARIAT DENGAN METODE LDL Makkulau (
[email protected]) Jurusan Matematika, FMIPA Universitas Haluoleo, Kendari Susanti Linuwih, Purhadi, Muhammad Mashuri Jurusan Statistika, Institut Teknologi Sepuluh Nopember Rahmawati Pane Jurusan Matematika, FMIPA Universitas Sumatera Utara, Medan ABSTRACT Outliers are observations (data) that lies in an abnormal distance from other observations. Outliers can be distinguished into outliers of univariate or multivariate observation and outliers of univariate or multivariate linear models. Multivariate linear model is a linear model with more than one dependent (response) variables. This research studied parameter estimation and hypothesis test for multivariate linear model using Likelihood Displacement Statistic-Lagrange Method called as LDL method for detecting outlier observations in multivariate linear models with the LDLAm statistical test. Keywords : estimation of parameter, likelihood displacement statistic-lagrange, multivariate linear models, outlier detection.
Pencilan (outlier) dibedakan atas outlier pada pengamatan (data) univariat atau multivariat dan outlier pada model linear univariat atau multivariat. Pendeteksian outlier pada pengamatan telah dilakukan antara lain oleh Hawkins (1980), Barnett dan Lewis (1994), Peña dan Prieto (2001), Filzmoser (2005), dan lain-lain. Pendeteksian outlier pada model linear telah dilakukan antara lain oleh Cook (1977), Rousseeuw (1984), Peña dan Guttman (1993), Srivastava dan von Rosen (1998), Diaz-Garcia, Gonzalez-Farias, dan Alvarado-Castro (2007), dan lain-lain. Outlier yang merupakan pengamatan yang menyimpang sedemikian jauh dari pengamatan lain, dapat mempunyai efek bagi pengambilan suatu kesimpulan atau keputusan pada penelitian. Xu, Abraham, dan Steiner (2005) mengembangkan jarak univariat Cook untuk mendeteksi outlier pada model linear multivariat dengan Metode Likelihood Displacement Statistic disingkat Metode LD, seperti pada Makkulau, Linuwih, Purhadi, dan Mashuri (2007a), prosedurnya dapat dilihat pada Makkulau, Linuwih, S., Purhadi, & Mashuri, M. (2008) dan aplikasinya dapat dilihat pada Makkulau, Linuwih, Purhadi, dan Mashuri (2009); Metode lain yang digunakannya adalah Metode Likelihood Ratio Statistic for a Mean Shift disingkat Metode LR, seperti pada Makkulau, Linuwih, S., Purhadi, & Mashuri, M. (2007b); dan Metode Multivariate Leverage yang menggunakan elemen dari the average diagonal QAm disingkat ADQ untuk mengukur keekstriman dari m pengukuran pada variabel independen. Xu, Abraham, dan Steiner (2005) dalam mengestimasi parameter dengan Metode LD dan Metode LR dari model linear multivariat tidak menggunakan fungsi pengganda Lagrange. Penelitian ini mengkaji estimasi parameter dan uji hipotesis pada model linear multivariat dengan Metode LDL.
Jurnal Matematika, Sains, dan Teknologi, Volume 10, Nomor 1, Maret 2010, 1-9
Model Linear Multivariat Misalkan X1, X2 ,
, X p adalah variabel independen (variabel prediktor) dan
,Yq adalah variabel dependen (variabel respon), jika dilakukan n pengamatan yang diambil pada setiap variabel dependen yang ditulis yi1, yi 2 , , yiq dimana i 1, 2, , n, atau yiq 0h 1h Xi1 2h Xi2 ph Xip εh dimana h 1, 2, , q, dan misalkan Y1, Y2 ,
Yh y1h , y2h ,
, ynh , maka dapat ditulis sebagai Yh Xhβh εh , dimana:
X1 0 0 X 2 Xh 0 0
0 0 adalah matriks berukuran nx(p+1) Xq
T
βh 0h , 1h , 2h , εh 1h , 2h ,
, ph adalah vektor parameter berukuran (p+1)x1 dan T
, nh
T
Model linear multivariat yang terdiri dari q model linear secara simultan dapat ditulis sebagai: (1) Y XB E Dengan Ynxq Y1, Y2 ,
, Yq , Xnx p1 1, X1, X2 ,
, X p , , βq , dan Enxq ε1, ε2 , , εq .
B p1xq β0 ,β1, β2 ,
Estimasi Parameter dan Uji Hipotesis Model Linear Multivariat Pada model linear multivariat matriks error Enxq [ih ] merupakan matriks acak, dimana
i 1, 2, , n dan h 1, 2, 1 Bˆ XT X XT Y
, q. Dengan mengestimasi parameter B pada (1), maka diperoleh (2)
Estimasi dari parameter Σ adalah: ˆ merupakan estimator bias untuk Σ . ˆ 1 Y XB ˆ T Y XB ˆ ;Σ Σ n
S
Y XBˆ ; S merupakan estimator tak bias untuk Σ .
1 ˆ Y XB n rank(X)
T
Vektorisasi matriks variabel dependen pada (1) ditulis Vec( Y ) (Christensen, 1991) adalah Vec Y Iq X Vec B Vec E :
dimana: adalah perkalian Kronecker
Vec E ~ N p 0, Σ In dan Vec Y ~ Nnq Iq X Vec B , Σ In .
2
(3)
Makkulau, Estimasi Parameter dan Uji Hipótesis pada Model Linear Multivariat dengan Metode LDL
Dengan menggunakan sifat hasil kali kronecker diperoleh:
I X VecY I X X X Vec(Y) ˆ adalah Vec B ˆ~ N dan distribusi Vec B Vec B , Σ X X .
ˆ Iq XT Iq X Vec B
-1
T
1
T
q
T
q
T
q p1
1
Prosedur uji hipotesis parameter pada model linear multivariat adalah: H0 : B 0 terhadap H1 : T B 0 T
dimana T PT X dan P adalah matriks ortogonal (Christensen, 1991). Hipotesis nol ditolak jika nilai maksimum dari likelihood di bawah H0 lebih besar dari nilai maksimum keseluruhan. Statistik uji rasio likelihood sering diarahkan pada Wilk’s . Metode Pendeteksian Outlier pada Model Linear Multivariat Outlier adalah pengamatan yang menyimpang sedemikian jauh dari pengamatan lain (Hawkins, 1980). Outlier dapat dibedakan atas outlier pada pengamatan univariat atau multivariat dan outlier pada model linear univariat atau multivariat. Outlier pada model linear multivariat dapat dibagi atas 3 kategori, yaitu outlier terhadap nilai X (leverage outlier); outlier terhadap nilai Y (residual outlier); dan outlier terhadap nilai X dan Y (outlier berpengaruh). Rousseeuw dan Hubert (1997) mengklasifikasikan outlier ke dalam empat kelompok berdasarkan penyebabnya, yaitu observasi umum (regular observations); titik leverage baik (good leverage points); outlier vertikal (vertical outliers); dan titik leverage jelek (bad leverage points atau XY-outliers). Untuk mendeteksi outlier pada model linear multivariat, Xu, Abraham, dan Steiner, (2005) mengembangkan jarak univariat Cook. Metode yang digunakan adalah Metode LD, yaitu suatu metode yang menghilangkan pengamatan yang diduga outlier pada model seperti pada Makkulau, Linuwih, Purhadi, dan Mashuri (2007a) prosedurnya dapat dilihat pada Makkulau, Linuwih, Purhadi, dan Mashuri (2008) dan aplikasinya dapat dilihat pada Makkulau, Linuwih, Purhadi, dan Mashuri (2009); Metode LR, yaitu suatu metode dengan cara pergeseran rata-rata pada model seperti pada Makkulau, Linuwih, Purhadi, dan Mashuri (2007b); dan Metode Multivariate Leverage yang menggunakan elemen dari the average diagonal QAm disingkat ADQ untuk mengukur keekstriman dari m pengukuran pada variabel independen. Fungsi likelihood dalam model linear multivariat ditulis sebagai berikut (Christensen, 1991 serta Rencher dan Schaalje, 2008): 1 nq 2
LB,Σ 2
n 1 T Σ 2 exp tr Σ1 Y XB Y XB 2
.
(4)
Pendeteksian outlier pada model linear multivariat dengan Metode LD dilakukan dengan cara menghilangkan pengamatan yang diduga outlier pada model. Misalkan ada m pengamatan dikumpulkan pada himpunan tertentu, dengan m pengamatan diduga outlier. Indeks Am adalah kumpulan dari m pengamatan yang diduga outlier. Dengan kata lain, indeks Am artinya ada outlier, sehingga: YAm adalah himpunan Y dengan pengamatan yang ada outlier.
YACm adalah himpunan Y dengan pengamatan tanpa outlier. 3
Jurnal Matematika, Sains, dan Teknologi, Volume 10, Nomor 1, Maret 2010, 1-9
Definisi 1 (Christensen, 1991) Likelihood Displacement Statistic (LD) dengan pengamatan yang ada outlier adalah:
ˆ ˆ ln L B ˆ CA ,Σ ˆ CA LDAm B,Σ 2 ln L B,Σ m m
(5)
Definisi 2 (Christensen, 1991) LD dengan pengamatan yang ada outlier dan bersyarat adalah:
ˆ ˆ ln L Bˆ 1CA ,Σˆ 1CA , Bˆ C2 A ,Σˆ C2 A LDAm B1,Σ1 B2 ,Σ2 2 ln L B,Σ m m m m
dimana
menotasikan suatu fungsi.
Bˆ
C Am
,Σˆ 1CAm
(6)
ˆ CA adalah: Estimator dari B dengan pengamatan tanpa outlier yaitu B m
ˆ A ; dimana QA XA XT X1 XTA ; Eˆ A YA XTA Bˆ . E m m m m m m m C ˆ A adalah: dan estimator dari Σ dengan pengamatan tanpa outlier yaitu Σ m 1 n 1 ˆ CA ˆ ˆ T QA E ˆA , Σ Σ E m m m nm n m Am ˆ CA B ˆ XT X 1 XTA Ι QA B m m m
1
sehingga fungsi likelihood dalam model linear multivariat dengan pengamatan tanpa outlier adalah
ˆ CA ). ˆ ˆ ln L(B ˆ CA , B LDAm B,Σ 2(ln L B,Σ m m Cara lain pendeteksian outlier pada model linear multivariat dengan Metode LR dilakukan dengan cara pergeseran rata-rata pada model, yang ditulis dalam bentuk model: zim , dan z j , j i1, i2 , , im Y XB ZCAm Ψ E ; dimana: ZCAm zi1 zi 2
Ψmxq : yaitu matriks pergeseran yang berhubungan dengan pengamatan di himpunan Am . E Y XB ZCAm Ψ adalah pergeseran rata-rata. Menurut Xu et al. (2005), untuk sampel besar: 2 n Σˆ H n Σˆ H Jika Λn , maka 2ln Λ n ln ~ q2 n Σˆ H n Σˆ Σˆ H n Σˆ H n Σˆ Σˆ H
METODE ANALISIS Estimasi parameter dan uji hipotesis pada model linear multivariat dengan Metode LDL, berdasarkan langkah-langkah sebagai berikut: i. Mengumpulkan m pengamatan yang diduga outlier. ii. Mendeteksi outlier pada pengamatan dalam model linear multivariat dengan asumsi Vec E ~ N p 0, Σ In dimulai dengan membuat fungsi likelihood L B, Σ , lalu
ˆ dan Σ ˆ dengan menggunakan Metode Maximum Likelihood Estimate disingkat menentukan B ˆ ˆ . Metode MLE untuk mendapatkan L B,Σ
4
Makkulau, Estimasi Parameter dan Uji Hipótesis pada Model Linear Multivariat dengan Metode LDL
iii. Memaksimumkan fungsi likelihood L B, Σ dengan kendala jika ada m buah pengamatan
adalah outlier menggunakan pengganda Lagrange, lalu membuat ln L B,Σ dan menentukan
Bˆ CAm , Σˆ CAm untuk mendapatkan L Bˆ CAm , Σˆ CAm . iv. Menentukan LDLAm . HASIL DAN PEMBAHASAN Penelitian ini dibatasi hanya pada pendeteksian outlier pada model linear multivariat dengan Metode LDL. Pendeteksian outlier pada model linear multivariat dimulai dengan memisalkan ada m pengamatan yang diduga outlier Am dari Y1, Y2 , , Yh , , Yq , sehingga YAm adalah himpunan
Y dengan pengamatan yang ada outlier dan YACm adalah himpunan Y dengan pengamatan tanpa outlier. Sebelumnya, jika dipunyai variabel independen sebanyak p dan variabel dependen sebanyak q, maka model linear multivariat (1) secara simultan dapat ditulis sebagai:
Ynxq Jnx1
X1nx p1 B p1xq Enxq Xnx p1B p1xq Enxq
(7)
Pendeteksian outlier pada model linear multivariat dengan asumsi Vec E ~ N p 0, Σ In seperti pada (3) dimulai dengan membuat fungsi likelihood untuk
ˆ dan Σ ˆ . Untuk mengestimasi parameter B pada (7) dengan populasi L B, Σ , lalu menentukan B fungsi likelihood seperti pada (4), maka estimasi (7) dengan Metode MLE dimulai dengan me-ln-kan (4), sehingga:
ln LB,Σ
nq n 1 T ln 2 ln Σ tr Σ1 Y XB Y XB 2 2 2
Kemudian (8) diturunkan terhadap B :
(8)
ln L B,Σ 1 ˆ XT 1 tr 2Σ1XT Y XB ˆ 0, diperoleh: tr 2Σ1 Y XB B 2 2 ˆB XT X1 XT Y Kemudian (8) diturunkan terhadap Σ , maka: ln L B, Σ 1 ˆ 1 Σ ˆ 1Σ ˆ 1 Y XB ˆ T Y XB ˆ 0 , diperoleh: tr nΣ Σ 2 ˆ 1 Y XB ˆ T Y XB ˆ Σ n Dari (7) diperoleh pula Y ~ N p XB, Σ I dan dalam bentuk vektor ditulis:
Vec Y Iq X VecB VecE , dengan Vec E ~ N p 0, Σ In .
5
Jurnal Matematika, Sains, dan Teknologi, Volume 10, Nomor 1, Maret 2010, 1-9
Untuk memaksimumkan fungsi likelihood L B, Σ dengan kendala
VecBˆ VecB ( Var VecB ) VecBˆ VecB jika ada m buah variabel dependen T
-1
adalah outlier dengan menggunakan pengganda Lagrange, dimulai dengan membuat ln L B,Σ dan
menentukan Bˆ CAm , Σˆ CAm , sehingga didapat L Bˆ CAm , Σˆ CAm . Kemudian membuat
ˆ ˆ ln L B ˆ CA ,Σ ˆ CA . LDLAm 2 ln L B,Σ m m ˆ CA adalah: Fungsi likelihood untuk B yaitu (4), sehingga fungsi likelihood untuk B m
nm
1 exp tr ΣCAm 2
Y
Y
XCAm Bˆ CAm C C ˆA . ˆ dan Σ ˆ seperti di atas, selanjutnya ditentukan Bˆ A dan Σ Setelah didapatkan B m m 1 nm p
L BCAm ,ΣCAm 2 2
ΣCAm
2
Berdasarkan (5) dan (6) diperoleh:
ˆ dengan B ,Σ B
Bˆ
ˆ 1CA , Σ ˆ 1CA , B ˆ C2 A ,Σ ˆ C2 A ln L B m m m m 1
C 1Am
1
C 1Am
ˆ 1CA ,Σ m
1
C Am
max
XCAm Bˆ CAm
β2 ,Σ2
T
C Am
ˆ 1CA ,Σ ˆ 1CA , B ˆ 2 ,Σ ˆ2 ln L B m m
ˆ 1CA , maka B ˆ1 B ˆ CA dan Σ ˆ1 Σ ˆ CA . ,Σ m m m
Berdasarkan (7), maka YACm XCAm BCAm ECAm dan Vec YACm ~ Np 0, Inm Σ , dan dari (2)
C C T C diperoleh Bˆ Am XAm XAm
X Y 1
C T Am
C Am
T
Dengan demikian dapat ditulis: XCAm
T
C C T T dimana XAm XAm X X XAm XAm .
YACm XT Y XTAm YAm .
ˆ CA adalah: Estimasi dari B setelah outlier dikeluarkan B m
X Y X Y Bˆ X X ˆ X X X Ι Q E ˆ B
Bˆ CAm XT X XTAm XAm
ˆ CA Sehingga:, B m
1
T
T
1
T
p
T Am ; 1
1
T
Am
1 1 XTAm Ι Ι QAm QAm YAm Ι QAm XTAm Bˆ
1
T Am
X ~ N B, X X
dimana QAm XAm X X diperoleh pula Bˆ CAm
1
T
T Am
Am
Am A
m
ˆ A YA X B ˆ E m m
T Am
Σ X X X Ι QAm T
1
T Am
1
X X
Var Eˆ Am
T
1
X Ι QAm T Am
1 T
Permasalahan di atas bersifat umum, sehingga nilai optimal yang diperoleh bisa saja bukan nilai yang paling optimal. Oleh karena itu digunakan pengganda Lagrange, sehingga nilai optimal yang diperoleh diharapkan merupakan nilai yang paling optimal pada daerah kepercayaan yang telah ditentukan. Untuk kasus spesial θ1 dari θ , maka LD dapat dimodifikasi sebagai:
LDLAm θ1 θ2 2 ln L θˆ ln L θˆ1CAm , θˆ 2 θˆ1CAm
6
Makkulau, Estimasi Parameter dan Uji Hipótesis pada Model Linear Multivariat dengan Metode LDL
ˆ , B
ˆ dimana θ β, Σ , θ1 β, θ2 Σ , sehingga θˆ βˆ , Σ
ˆ,Σ ˆ 1n L B ˆC LDLAm B Σ 2(ln L B Am
C Am
Fungsi likelihood dengan kendala sebanyak m pengamatan yang diduga outlier adalah:
ˆ C , B ˆ CA L B m Am
1 mn
ˆ CA B ˆ XT X1 XTA B m m
1
YX
C C T Am BAm
C C Am BAm
2
1
n
Σ BCAm Am
ˆ CA 1 Y XA Bˆ A B m m m sehingga diperoleh
n e
Ι Q Eˆ
2 2
YX
1 tr Σ BCAm 2
Am
Y X
ˆ 1E ˆ TA Ι QA ˆ CA Σ B m m m
1 ˆT ˆ ˆ ˆ ˆ E E B BAm Am BAm n
T
1
X XBˆ Bˆ . T
T
Am
1
Eˆ Am dan n ˆ ,Σ ˆ 1n L B ˆ C , B ˆ CA LDLAm LDLAm B Σ 2(ln L B A QAm Ι QAm
m
(9)
m
ˆ A pada persamaan (9), maka diperoleh: Dengan me-ln-kan dan membuang B m ˆ 1 ˆT
ˆ m
n n EA CA EA mn n n mn n ˆ CA n ) n ln LDLAm 2( ln 2 ln ˆ ln 2 ln B 2 2 2 2 2 2 n ˆ
m
m
dimana CAm Ι QAm
1
QAm Ι QAm
1
.
Selanjutnya menentukan nilai eigen dari CAm didapat 1, 2 , Jika LDLAm didekati dengan LDLA
m
λ Z , sehingga LDL i1
m
2 i i
A
, m.
~ v2 , dimana v mq . ; Zi2 ~ q2
maka LDLA .Z 2 ~ .q2 , 1 hii dimana ; hii elemen diagonal ke-i dari H dimana H X XT X X . 2 1 hii
Statistik uji yang dipakai untuk mendeteksi adanya outlier dalam model linear multivariat
ˆ 1 ˆT ˆ n n EAm CAm EAm dengan Metode LDL adalah: LDLAm n ln n ˆ
7
Jurnal Matematika, Sains, dan Teknologi, Volume 10, Nomor 1, Maret 2010, 1-9
Penentuan outlier dilakukan dengan membandingkan LDLAm dengan v2 dimana:
H0 : Am bukan outlier dan H1 : Am adalah outlier. 2 , maka tolak H0 , artinya pengamatan tersebut adalah outlier. Jika LDLA hitung .tabel KESIMPULAN Estimasi parameter dan uji hipotesis pada model linear multivariat dengan Metode LDL dapat digunakan untuk mendeteksi outlier pada model linear multivariat dengan statistik uji
ˆ 1 ˆT ˆ n n EAm CAm EAm LDLAm n ln n ˆ
2 . Jika LDLA hitung .tabel , maka pengamatan tersebut adalah
outlier. REFERENSI Barnett, V. & Lewis, T. (1994). Outliers in statistical data. ( 3rd ed). Great Britain: John Wiley. Christensen, R. (1991). Linear model for multivariate, time series, and spatial data. New York: Springer-Verlag. Cook, R.D. (1977). Detection of influential observation in linear regression. Technometrics, Februari 2000, 42, no. (1), 65-68. Diaz-Garcia, J.A., Gonzalez-Farias, G. & Alvarado-Castro, V. (2007). Exact distributions for sensitivity analysis in linear regression. Applied Mathematical Sciences, 22;1083-1100. Filzmoser, P. (2005). Identification of multivariate outliers: A performance study. Austrian Journal of Statistics. 2;127-138. Hawkins, D.M. (1980). Identifications of outliers. New York: Chapman and Hall. Makkulau, Linuwih, S., Purhadi, & Mashuri, M. (2007a). Outlier detection for the value of Y variable (residual outlier) in multivariate regression models. Proceeding International Conference and Workshop on Basic and Applied Science, Universitas Airlangga, Agustus 2007, Surabaya. Makkulau, Linuwih, S., Purhadi, & Mashuri, M. (2007b). Pendeteksian outlier pada model linear multivariat dengan pergeseran rata-rata. Prosiding Seminar Nasional Statis-tika VIII, Jurusan Statistika FMIPA ITS, November 2007, Surabaya. Makkulau, Linuwih, S., Purhadi, & Mashuri, M. (2008). Prosedur pendeteksian outlier pada model linear multivariat dengan metode likelihood displacement statistic. Prosiding Seminar Nasional Matematika IV, Jurusan Matematika FMIPA ITS, Desember 2008, Surabaya. Makkulau, Linuwih, S., Purhadi, & Mashuri, M. (2009). Pendeteksian outlier model linear multivariat pada produksi gula dan tetes tebu. Prosiding Seminar Nasional Matematika, Jurusan Matematika FMIPA Universitas Jember, Februari 2009, Jember. Peña, D. & Guttman, I. (1993). Comparing probabilistic methods for outlier detection in linear models. Biometrika, Technometrics, August 2001. 3;603-610. Peña, D. & Prieto, F.J. (2001). Multivariate outlier detection and robust covariance matrix estimation. American Statistical Association and the American Society for Quality, Technometrics. 43, no (3).
8
Makkulau, Estimasi Parameter dan Uji Hipótesis pada Model Linear Multivariat dengan Metode LDL
Rencher, A.C. & Schaalje, G.B. (2008). Linear models in Statistics, (2nd ed). John Wiley & Sons: New York. Rousseeuw, P.J. (1984). Least median of squares regression. Journal of the American Statistical Association. 79, 871-880. Rousseeuw, P.J. & Hubert, M. (1997). Recent developments in PROGRESS, dalam L1-Statistical procedure and related topics, edited by Y. Dodge, Institute of Mathematical Statistics Lecture Notes and Monograph Series, Hayward, California, Vol. 31, 201-214. Srivastava, M.S. & von Rosen, D. (1998). Outliers in multivariate regression models, Journal of Multivariate Analysis. 65, 195-208. Xu, J., Abraham, B., & Steiner, S.H. (2005). Outlier detection methods in multivariate regression models. Diambil tanggal 4 April 2007, dari http://www.bisrg.uwaterloo.ca/archive/RR-06-07.pdf.
9