BAB 2 KAJIAN PUSTAKA DAN DASAR TEORI
2.1 Analisis Diskriminan Diskriminan merupakan metode analisis multivariat yang bertujuan untuk memisahkan objek pengamatan yang berbeda dan mengalokasikan objek pengamatan baru ke dalam kelompok yang telah didefinisikan (Johnson dan Wichern, 2002: 581). Misal sebuah populasi terdiri dari l kelompok
1 , . . . , l dengan
masing-masing
wilayah
(region)
R1 , . . . , Rl .
Suatu
pengukuran terdiri dari p variabel prediktor, dilakukan pada l kelompok sebanyak n
pengamatan,
menghasilkan
matrik
data
X x1 ,..., x n T
dengan
xi xi1 ,..., xip ; i 1,..., n. Perbedaan l kelompok dapat diketahui dari bentuk
densitasnya, f j x bila pengamatan berasal dari j ; j = 1, . . . , l dengan probabilitas prior pj. Besarnya biaya yang harus dikeluarkan bila objek pengamatan yang berasal dari j dinyatakan sebagai k di mana k {j| j = 1, . . . , l } dinotasikan oleh c(k|j) dengan probabilitas, P (k | j ) P X Rk j f j x dx.
(2.1)
Rk
Ekspektasi biaya salah pengelompokkan sebuah objek pengamatan x dari j dinyatakan sebagai k (expected cost of misklassification) disingkat ECM adalah: l ECM p j P k j c k j . j 1 1 kk j l
(2.2)
Teorema 2.1 (Johnson dan Wichern, 2002: 614)
Diketahui suatu matrik data X x1 ,..., x n terdiri dari p variabel T
dengan x i xi1 ,..., xip ; i 1,..., n.di mana pj menyatakan probabilitas prior,
c(k|j)
menyatakan
biaya
7
salah
pengelompokkan
dan
f j x menyatakan fungsi densitas kelompok ke-j. Jika x R p dikelompokkan ke k ; k 1,..., l dengan l
x c k j p f j 1 j k
j
(2.3)
j
minimum maka ECM (2.2) akan minimum. Bukti
ECM pada (2.2) dapat dituliskan sebagai l
l
l
j 1 j k
j 1 j k
k 1 k j
ECM pk P j k c j k p j P k j c k j . Substitusikan (2.1) ke (2.2) akan dihasilkan l
l
l
j 1 j k
k 1 k j
ECM pk c j k f k x dx p j c k j f j x dx j 1 j k
Rj
Rk
l
Karena R j , maka
j 1
l
x dx f k x dx 1 . Sehingga fk j 1 Rj
l
x dx 1 f x dx . Akibatnya, f j 1 Rj j k
k
k
Rk
l l l ECM pk c j k 1 f k x dx p j c k j f j x dx k 1 R j 1 k 1 j 1 Rk k j k k j j k k j l
l
l
j 1 j k
j 1 j k
l
l
l
j 1 j k
k 1 k j
pk c j k pk c j k x dx p j c k j f j x dx fk k 1 Rk k j
Rk
Dengan sifat penjumlahan integral diperoleh, l l l l pk c j k p j c k j f j x pk c j k f k x dx j 1 1 k 1 j 1 k 1 Rk j j k k j j k j k k j l
l l pk c j k p jc k j f j x pk c j k fk x dx j 1 1 j 1 j 1 Rk k j k k j j k j k l
l
Karena probabilitas prior, biaya salah pengelompokkan dan nilai-nilai integral suatu fungsi densitas tidak pernah negatif maka ECM akan minimum apabila:
8
l
l
j 1 j k
j 1 j k
x pk c j k f k x 0 p j c k j f j atau l
x minimum. p c k j f j 1 j k
j
j
Anggap semua biaya salah pengelompokkan sama. Pengamatan x R p akan dialokasikan ke dalam kelompok k jika l
x p f j 1 j k
j
(2.4)
j
minimum. Sementara itu, (2.4) akan minimum jika pk f k x maksimum. Dengan kata lain, Pengamatan x R p akan dialokasikan ke dalam kelompok k jika
pk f k x p j f j x untuk semua j k
(2.5)
atau
ln pk f k x ln p j f j x untuk semua j k .
(2.6)
Apabila x berdistribusi normal multivariat dengan vektor rata-rata j dan matrik kovariansi j , maka bentuk fungsi densitas x dapat dinyatakan sebagai, 12 t p 1 f j x 2π j e xp x j j 1 x j , 2
(2.7)
dengan j = 1, . . . , l. Jika biaya misklasifikasi diasumsikan sama maka pengamatan
x R p akan dialokasikan ke dalam kelompok k jika
1 1 T p ln pk ln 2 ln Σk xμk Σk1 xμk 2 2 2 T 1 1 p ln p j ln 2 ln Σj xμj Σj 1 xμj untuk semua j k . 2 2 2
p 2
Karena komponen ln 2πkonstan, maka Johnsosn dan Wichern (2002: 616) mendefinisikan skor diskriminan kuadratik untuk setiap pengamatan pada kelompok ke-j sebagai
9
t 1 1 d Qj x ln j x j j 1 x j ln p j 2 2
(2.8)
dengan j = 1, . . . , l. Dengan menggunakan skor diskriminan kuadratik pada (2.8), maka
x R p akan dialokasikan ke dalam kelompok k jika
d kQ x maks di antara d1Q x , . . . , dlQ x .
(2.9)
Menurut Joossens (2006: 32), meskipun (2.8) diturunkan dari densitas normal multivariat namun skor diskriminan kuadratik dapat diterapkan tanpa melalui asumsi distribusi tertentu. Kenyataannya, pj, vektor mean j dan matrik kovarian j tidak diketahui. Untuk mengestimasi j dan j digunakan penaksir tak bias untuk kedua parameter tersebut yaitu
1 xj nj
nj
h 1
n
j t 1 xhj x j xhj x j . n j 1h 1
xhj dan S j
(2.10)
x R p akan dialokasikan ke dalam kelompok k jika: CQ CQ dˆ x dˆ x untuk semua j = 1, . . . , l, j ≠k dengan k j
t 1 1 CQ C dˆ x ln S j x x j S j 1 x x j ln pˆ j j . 2 2
(2.11)
Untuk mengestimasi probabilita keanggotaan pj dalam (2.11), bisa digunakan dua C pendekatan (Hubert, 2004:302). Pertama pj diasumsikan konstan, sehingga pˆ 1l j
untuk setiap j. Pendekatan kedua, pj dinyatakan sebagai frekuensi relatif pengamatan C dalam kelompok, sehingga pˆ j nl n .
2.2 Pendeteksian dan Bentuk Outlier Outlier merupakan suatu pengamatan yang menyimpang cukup jauh dari pengamatan lainnya sehingga menimbulkan kecurigaan bahwa pengamatan tersebut berasal dari distribusi data yang berbeda (Hawkins dalam Sujatmiko, 2005:4). Distribusi pe r t a ma di s e b uts e ba g a i“ di s t r i bu s id a s a r ”( basic distribution) yang menghasilkan pe ng a ma t a n “ ba i k ” . Di s t r i bus ik e dua di s e bu ts e ba g a i“ di s t r i bu s ik ont a mi na n” (contaminating distribution) y a ng me ng h a s i l k a n pe ng a ma t a n“ t i d a k ba i k ” .Jumlah
10
maksumum outlier dalam data yang diperbolehkan adalah 50 persen (Rousseeuw dan Leroy dalam Hubert dan Van Driessen, 2004: 303). Outlier yang disebabkan oleh variabel prediktor dinamakan leverage. Leverage sangat sulit diketahui sejak awal karena: 1.
Visualisasi seperti scatter diagram tidak mampu menggambarkan secara utuh dalam satu gambar.
2.
Beberapa pencilan dalam data membentuk efek masking. Identifikasi outlier pada data multivariat umumnya didasarkan pada jarak kuadrat
mahalanobis. Sebuah pengamatan xi diidentifikasi sebagai outlier jika jarak mahalanobis, 2 d MD xi x S 1 xi x p2 ,(1) . t
(2.12)
Di sini x dan S menyatakan vektor rata-rata dan matrik kovariansi.
Dengan jarak
mahalanobis, identifikasi outlier tidak maksimal bila data mangandung lebih dari satu pengamatan outlier. Hal ini muncul akibat adanya pengaruh masking dan swamping. Masking terjadi pada saat pengamatan outlier tidak terdeteksi karena adanya pengamatan outlier lain yang berdekatan. Swamping terjadi saat pengamatan baik teridentifikasi sebagai pengamatan outlier. Baik masking maupun swamping keduanya dapat diatasi dengan menggunakan penaksir robust untuk vektor rata-rata dan matrik kovariansi sehingga dihasilkan jarak kuadrat mahalanobis robust. Salah satu penaksir robust yang mempunyai kemampuan mengukur jarak sekaligus mendeteksi titik leverage adalah MCD. Deteksi outlier melalui Robust Distance (Hubert dkk, 2007). Sebuah pengamatan xi diidentifikasi sebagai outlier jika jarak mahalanobis robust, 2 1 d RD xi x MCD S xi xMCD p2 ,(1) , MCD t
(2.13)
di mana xMCD dan S MCD menyatakan vektor rata-rata dan matrik kovariansi dari sebagian data X yang mempunyai determinan matrik kovariansi terkecil. Berdasarkan pengaruh pengamatan outlier terhadap data maka outlier dapat dibedakan menjadi tiga. Pertama, shift outlier. Shift outlier mampu menggeser vektor rata-rata sehingga pusat data menjadi berubah. Pada data berdistribusi normal, pergeseran vektor rata-rata bisa melalui penambahan setiap elemen vektor rata-rata dengan satuan
Q p p2 ,0.001 / p di mana p menyatakan jumlah variabel dan p2 ,0.001 menyatakan nilai chi-square dengan derajat bebas p dan level konvidensi (1 –0.001) . Menurut Rocke dan Woodruft dalam Todorov dan Pires (2007) penambahan Qp pada setiap elemen vektor
11
rata-rata dari data berdistribusi normal multivariat sudah mampu menggeser pusat ellipsoid sejauh Qp. Data terkontaminasi shift outlier dapat dinyatakan sebagai
j 1 N p μj , Σj N p μ*j , Σj ; j 1, . . . ,l .
(2.14)
di mana menyatakan proporsi outlier dalam data dan μ*j menyatakan vektor rata-rata yang berfungsi sebagai shift outlier. Jenis Outlier berikutnya adalah scale outlier. Jika shift outlier hanya mampu menggeser pusat ellipsoid, maka scale outlier mampu merubah bentuk ellipsoid. Scale outlier dapat dinyatakan dengan persamaan
j 1 N p μj , Σj N p μj , Σj ; j 1, . . . ,l .
(2.15)
di mana Σj menyatakan matrik kovariansi yang berfungsi sebagai scale outlier. Jenis outlier ketiga merupakan gabungan dua outlier sebelumnya. Hubert dan Van Driessen (2004) menyebutnya dengan radial outlier. Radial outlier ini selain menggeser pusat ellipsoid juga merubah bentuk ellipsoid. Dalam distribusi hierarki, radial outlier dinyatakan dengan
j 1 N p μj , Σj N p μ*j , Σj ; j 1, . . . ,l
(2.16)
2.3 Penaksir Robust MCD Penaksir robust MCD merupakan rata-rata dan kovariansi dari sebagian pengamatan yang meminimumkan determinan matrik kovariansi. Menurut Hubert (2007: 5), MCD memiliki sifat statistik yang baik karena memenuhi sifat affine equivariant. MCD juga tergolong penaksir robust dengan breakdown point tingkat tinggi karena memenuhi batas nilai maksimum breakdown 50 persen. Dari sudut pandang ketersediaan paket program, MCD telah terakomodir dalam S-PLUS, Matlab dan SAS dengan menggunakan algoritma Fast-MCD.
Definisi 2.1 MCD (Butler dkk, 1993: 1385). T Diketahui X x1 ,..., x n merupakan himpunan data sejumlah n pengamatan terdiri dari p variabel di mana n p 1. Penaksir MCD merupakan pasangan t p dan C PDS ( p ) matrik definit positif
12
simetri berdimensi pxp dari suatu sub sampel berukuran h pengamatan di mana n p 1 / 2 h n dengan h
h
i 1
i 1
t 1 h xi dan C :1 h xi t1 xi t1 T
(2.17)
yang meminimumkan det C. Berdasarkan Definisi 2.1 di atas, metode MCD mencari himpunan bagian dari X sejumlah h elemen di mana h integer terkecil dari n p 1 / 2. Misalkan himpunan bagian itu adalah X h . Terdapat nCh kombinasi yang harus ditemukan untuk mendapatkan penaksir MCD. Untuk n kecil, penaksir MCD cepat ditemukan. Tetapi, jika n besar makan banyak sekali kombinasi sub sampel yang harus ditemukan untuk mendapatkan penaksir MCD. Keterbatasan ini menghantarkan pada penemuan algoritma FAST-MCD oleh Rousseeuw dan Van Driessen (1999). Salah satu aspek terpenting dari algoritma FAST-MCD adalah teorema C-Steps. Teorema 2.2 C-Steps (Rousseeuw dan Van Driessen, 1999: 214). Diketahui X x1 ,..., x n merupakan himpunan data sejumlah n T
pengamatan terdiri dari p variabel. Misal H1 1,..., ndengan jumlah
elemen
t1 : 1 h xi
# H1 h
H1,
dan
iH1
,
tetapkan
C1 : 1 h xi t1 xi t1 . T
det C1 0, definisikan jarak relatif
Jika
iH1
d1 i xi t1 C11 xi t1 untuk i 1,..., n. T
Selanjutnya
ambil
H2
sedemikian
i ; i H : d ,..., d , d 1
2
1 1:n
di
1 h:n
d1 d1 menyatakan d1 1:n 2:n n:n det C2 det C1
dan akan sama jika dan hanya jika t1 t 2 dan C2 C1 .
13
mana
urutan jarak, dan hitung
t 2 dan S 2 berdasarakan himpunan H 2 . Maka
Bukti.
sehingga
Asumsikan det C2 0. Selanjutnya jarak relatif d 2 i d t 2 ,C2 i untuk semua i 1,..., n. Dengan menggunakan # H 2 h dan definisi t 2 , C2 , diperoleh
1 1 T d 22 i tr xi t 2 C21 xi t 2 hp iH 2 hp iH 2 1 T 1 tr C xi t 2 xi t 2 2 hp iH 2 1 1 1 trC I 1. 2 C2 tr p p
(2.18)
Selanjutnya, 1 1 h 1 : d12 i d12 i:n hp iH 2 hp i 1 hp
j 1, d
jH1
2 1
(2.19)
di mana 0 . Dengan menggabungkan (2.18) dan (2.19) dihasilkan
1 1 T 1 d2t1 ,C1 i xi t i C11 xi t1 hp iH 2 hp iH 2 1 d12 i 1. hp iH 2 Akibatnya det C1 det C1 . Sementara dari (2.19) diperoleh pertidaksamaan
det C2 det C1 . Sehingga det C2 det C1 det C1 .
(2.20)
Lebih lanjut, det C2 det C1 jika dan hanya jika (2.20) menjadi bentuk persamaan. Pertama, det C2 det C1 jika dan hanya jika t 2 , C2 t1 , C1 . Kedua,
det C1 det C1 jika
dan
t 2 , C2 t1 , C1 .
hanya
jika
1 .
Akibatnya,
Bentuk lain penaksir MCD adalah dengan menggunakan pembobot. Pengamatan yang tidak disertakan dalam penghitungan penaksir rata-rata dan kovariansi MCD diberi bobot nol, lainnya diberi bobot sama dengan satu. Penaksir MCD dihitung dengan
14
n
w x
t MCD i 1n
i
i
(2.21)
w
i
i 1
dan n
w x t i
CMCD i 1
i
xi t MCD T
MCD
(2.22)
n
w 1 i
i 1
dengan T 1 1 jika xi t MCD C xi t MCD p2 ,0.975 MCD wi 0 lainnya
Definisi 2.2 Affine Equivariant (Lopuhaa dan Rousseeuw, 1991: 230). Diketahui X x1 ,..., x n merupakan himpunan data sejumlah n T
pengamatan dalam ruang p dan t p adalah penakasir parameter lokasi berdasarkan X. Penaksir t X dikatakan affine equivariant
jika t XA jvT t X A v untuk semua A matrik nonsingular berdimensi pxp semua v p di mana v vektor px1 dan j 1,1,...,1vektor nx1. T
Penaksir rata-rata MCD t MCD bersifat affine equivariant. Misal, n
w x
tn X t MCD i 1n
i
i
w i 1
wT X T , w j
i
dengan w vektor yang memuat elemen pembobot masing-masing pengamatan atau w w1 ,..., wn . Maka, T
t n XA jv
T
wT XA jvT wT j
wT XA wT jvT wT j
15
wT XA wT jvT T T t X A v w j w j Penaksir kovariansi MCD, CMCD , juga bersifat affine equivariant. Suatu penaksir parameter sebaran data C X bersifat affine equivariant jika
C XA + jvT AT C X A n
w x t
Dengan mengambil CMCD i 1
i
i
n
w 1
n
w x A v t
Cn XA jvT i 1
i
A v xi A v t MCD A v T
MCD
n
w 1 i 1
n
w x A t
i 1
i
i
maka,
i
i 1
i
xi t MCD T
MCD
i
A xi A t MCD A T
MCD n
w 1 i 1
n
i
AT wi xi t MCD xi t MCD A i 1 AT Cn X A n wi 1 T
i 1
Ukuran ke-robust-an yang sangat bermanfaat dari suatu penaksir adalah breakdown point. Breakdown point adalah jumlah pengamatan minimal yang dapat menggantikan sejumlah pengamatan mula-mula yang berakibat pada nilai taksiran yang dihasilkan sangat berbeda dari taksiran sebenarnya. Breakdown point dari penaksir parameter lokasi adalah t X adalah proporsi outlier terkecil
m n yang mengakibatkan nilai taksiran menjadi takterhingga: m n t, X min ;sup t Ym t X 1m n n Ym di mana suprimum diperoleh untuk semua kemungkinan himpunan yang terkontaminasi outlier Ym . Ym diperoleh dengan menggantikan m elemen dari himpunan data X dengan nilai-nilai sembarang. Breakdown point penaksir
16
kovariansi C X didefinisikan sebagai proporsi outlier terkecil m n yang mengakibatkan nilai eigen terbesar C mencapai tak berhingga atau nilai eigen 1 terkecil p C mendekati nol: m n C, X min ;sup D C Ym ,t X 1m n n Ym di mana suprimum diperoleh untuk semua kemungkinan himpunan yang terkontaminasi outlier Ym di mana
D A, B max A B , p A p B dengan 1 1 1
1
A p A nilai-nilai egien dari matrik A berdimensi pxp. 1 Teorema 2.3 Breakdown Point Penaksir MCD (Lopuhaa dan Rousseeuw, 1991: 235). T Diketahui Xn x1 ,..., x n merupakan himpunan data sejumlah n pengamatan dalam ruang p dengan n p 1, dan t dan C penaksir MCD untuk rata-rata dan kovariansi. Jika * p 1 maka n* t, X C, X n 2n . Pada n 12 n dan n saat p 2, maka
n* t, X n* C, X n p 12 n . Bukti Pada saat p = 1, t merupakan titik tengah dari interval terpendek yang meliputi sedikitnya n 2 1 pengamatan, dan C menyatakan proporsi panjang intervalnya. Dengan mengganti sedikitnya n 12 pengamatan mengakibatkan
t menuju tak berhingga. Dengan mengganti sedikitnya
n 2pengamatan
mengakibatkan C menjadi 0. Untuk p 2 akan dibuktikan bahwa n* t, X dan n* C, X sedikitnya n p 12 n . Pada saat h mengambil jumlah observasi minimal untuk
mendapatkan taksiran t, C . Terdapat n –h pengamatan yang tidak disertakan dalam penghitungan t, C . Selama penggantian pengamatan hanya sejumlah n –
17
h maka t, C tidak mengalami banyak perubahan. Tetapi pada saat sejumlah n h 1 pengamatan diganti dengan nilai ekstrim, maka t, C akan berubah
secara nyata. Misal Ym himpunan data yang diperoleh dari himpunan data X n p 1 n p 1 dengan menggantikan sedikitnya m n h 1 n 1 penga2 2
matan dengan menambahkan v, Ym x1 , x 2 ,..., x h 1 , x h v, x h 1 v,..., x n v . T
Maka 1 h 1 1 h t m xi x h v xi v h i 1 h i 1 T
x v x1 v, x2 v,..., x p v .
Jika v 0 maka t m t , tetapi jika v maka t m . . Selanjutnya, misal Ym himpunan data yang diperoleh dari himpunan data X n p 1 dengan menggantikan sedikitnya m n h 1 pengamatan dengan 2
mengalikan konstanta a, Ym x1 , x 2 ,..., xh 1 , ax h , ax h 1 ,..., ax n . T
Maka CmMCD aCMCD . Jika a maka Ym a X . 1 1
2.4 Penaksir Robust MWCD Diketahui X x1 ,..., x n himpunan data. Parameter μdiestimasi dengan T
meminimalkan jumlah pembobot dari jarak kuadrat Mahalanobis di mana pembobot bergantung pada urutan jaraknya. Fungsi pembobot yang digunakan adalah an i h i/ n 1 , i 1,..., n di mana h: 0,1 [0, ) sehingga
sup u; h u 0 1 ,
1 Dengan 0 dan h u 0 untuk setiap u (0,1 ] . Oleh karena proporsi 2
dari pengamatan xi diberi bobot 0, maka diperoleh penaksir robust.
18
Definisi 2.3 Penaksir MWCD (Roelant dkk. 2007: 2). Penaksir MWCD adalah setiap penyelesaian ˆ ˆMWCD X n μ ,Σ X n arg min Dn m, C MWCD
m ,C ,det C 1
di antara semua m, C p PDS p di mana PDS p adalah kelas matrik positif definit simetri berdimensi p. Fungsi objektif Dn didefinisikan sebagai n
Dn m, C an Ri di2 m, C i 1
m, C xi m C 1 xi m dan Ri menyatakan peringkat dari di2 m, C diantara d12 m, C ,..., d n2 m, C . Dengan
d
T
2 i
Jika ada beberapa penyelesaian masalah minimalisasi fungsi objektif, hanya satu yang dipilih sebagai penaksir MWCD. Syarat det C 1 mempunyai
ˆ dapat dianggap sebagai penaksir kovariansi. Formula lain implikasi pada V MWCD yang equivalent dengan penaksir MWCD diperoleh sebagai berikut. Diketahui merupakan himpunan semua permutasi dari
1,..., n.
Selanjutnya, untuk sembarang vektor R R1 ,..., Rn , maka n
a R x
ˆ μ Ri 1n
n
i
i
a R n
i 1
i
n
a R x μR xμR
ˆ Σ Ri 1
T
n
i
i
i
i
i
n
a R i 1
n
i
Sebagaimana MCD, algoritma MWCD juga memanfaatkan teorema CSteps. Dasar algoritma MWCD yang dikembangkan oleh Roelant dkk (2006) merupakan bentuk generalisasi dari Teorema C-Steps. Adapun algoritma MWCD dinyatakan dalam Teorema 2.4 sebagai berikut.
19
Teorema 2.4 Algoritma MWCD (Roelant dkk, 2006: 4). Diketahui suatu himpunan data Xn x1 ,..., x n p dan fungsi pembobot tidak naik an . Diketahui Q1 an R1 j d12 j dengan n
j 1
R1 R11 ,..., R1n vektor
yang
menyatakan
urutan
jarak
p ˆ1 ˆ ˆ ˆ d12 j x j μ xj μ , j 1,..., n di mana μ 1 V 1 1 1 dan T
ˆ pxp dengan det V ˆ =1 . Hitung μ ˆ Σ ˆ ˆ ˆ Σ R1 dan Σ R1 . 2 μ 2 1 1 Hitung 1 p ˆ det Σ ˆ ˆ V Σ
2
2
2
dan
T ˆ1 ˆ ˆ d 22 j x j μ xj μ , j 1,..., n 2 V 2 2
dengan
vektor
ururtan
jaraknya
R2 .
Jika
Q2 an R2 j d 22 j maka Q2 Q1. n
j 1
Bukti.
Q2 an R2 i d 22 j an R1 j d 22 j karena R2 j adalah vektor berdasarkan n
n
j 1
j 1
d 22 j dan an fungsi yang tidak naik. Fungsi an memberikan bobot paling besar untuk jarak paling kecil. Akibatnya, jumlahan yang dihasilkan lebih kecil daripada kombinasi pembobot dan jarak lainnya. Selanjutnya,
j an R1 j d12 j Q1 an R1 j d 22 n
n
j 1
j 1
ˆmeminimumkan ˆ karena μdan V 2 2
a R d m, C . n
j 1
n
1j
2 j
Anggap bahwa terdapat
beberapa m p dan C PDS p dengan det C 1 sedemikian sehingga
ˆ , ˆ. a R d m, C a R d μV n
j 1
n
n
2 j
1j
j 1
n
1j
2 j
Implikasi dari Preposition 1 (Roelant dkk., 2007: 3) adalah
1 N
ˆ Cp. a R d m, det Σ n
j 1
n
1j
2 j
1 p 2
20
Sehingga
1 N
terdapat
sebuah
0 c 1
konstanta
sedemikian
sehingga
ˆ Cp. Berdasarkan Lemma 1 (Roelant dkk., 2007: a R d m, c det Σ n
j 1
n
1j
2 j
1 p 2
16) maka
ˆ det c det Σ ˆ1 p C c p det Σ ˆ det Σ 2 2 2 tampak kontradiktif sehingga
ˆ ˆ an R1 j d 2j m, C an R1 j d 2j μ 2,V 2 n
n
j 1
j 1
atau Q2 Q1.
Penaksir robust MWCD bersifat affine equivariant dan tergolong penaksir robust dengan breakdown point tinggi. Breakdown point untuk penaksir MWCD sama seperti MCD. Hal ini disebabkan jumlah pengamatan yang diberikan bobot nol pada penaksir MWCD sama dengan MCD. Akibatnya jumlah breakdown point yang dihasilkan MWCD juga sama dengan MCD.
2.5 Penaksir Robust dalam Analisis Diskriminan Kuadratik Analisis diskriminan kuadratik robust diperoleh dengan mengganti penaksir vektor rata-rata dan matrik kovariansi sampel dengan MCD dan MWCD. Skor diskriminan kuadratik robust untuk penaksir MCD dan MWCD didefinisikan sebagai:
t 1 1 1 QMCD C dˆ x ln S MCDj x xMCDj S MCDj x xMCDj ln pˆ j j 2 2
(2.23)
dan
t 1 1 1 QMWCD C dˆ x ln S MWCDj x xMWCDj S MWCDj x xMWCDj ln pˆ j j 2 2
(2.24)
Selanjutnya alokasikan x sebagai kelompok k jika QMCD QMCD dˆ x dˆ x ; k j. k j
(2.25)
Demikian juga untuk penaksir MWCD, alokasikan x sebagai kelompok k jika
d kQMWCD x d QMWCD x ; k j. j
(2.26)
21
Untuk mengukur seberapa baik aturan diskriminan yang dihasilkan dapat digunakan beberapa metode. Johnson dan Wichern (2002) mengemukakan setidaknya tuhuh metode evaluasi fungsi diskriminan. Ketujuh metode tersebut adalah: (i)
Expected Cost of Misclassification (ECM).
(ii)
Total Probability of Misclassification (TPM).
(iii) Optimum Error Rate (OER). (iv)
Actual Error Rate (AER).
(v)
Apparent Error Rate (APER).
(vi)
Error-rate Estimate.
(vii) Holdout Procedure. ECM dibangun di atas tiga komponen, yaitu probabilita prior pj, biaya misklasifikasi c(k|j) dengan probabilita misklasifikasi P(k|j). Secara singkat, ECM diformulasikan sebagai l ECM p j P k j c k j j 1 1 kk j l
(27)
Bila faktor biaya misklasifikasi c(k|j) diabaikan atau diasumsikan sama untuk setiap kelompok, maka dari persamaan (27) dihasilkan rumusan TPM yang dinyatakan sebagai TPM p j f j x dx j 1 kR k j l
(28)
dengan x dx P k j f j Rk k j
Nilai minimum dari TPM menyatakan OER. OER diformulasikan sebagai OER p j f j x dx j 1 kR k j l
(29)
Di mana Rk ditentukan oleh persamaan (27).
22
Baik ECM, TPM, maupun OER ketiganya dapat dihitung apabila fungsi densitas populasi diketahui. Dalam prakteknya, parameter populasi yang muncul dalam aturan diskriminan diestimasi dari sampel (Johnson dan Wichern, 2002). Oleh karena itu, evaluasi kinerja aturan diskriminan dari data sampel menggunakan AER yang difornulasikan sebagai AER p j f j x dx j 1 kRˆ k j l
(30)
Tampak bahwa AER baik untuk sampel yang akan diklasifikasikan kemudian karena (30) ternyata masih sulit dihitung akibat dari fungsi densitas kelompok yang juga masih tidak diketahui. Dalam tataran sampel, kesulitan ini diatasi dengan memfungsikan data menjadi dua. Fungsi pertama disebut sebagai data training. Fungsi data training ini untuk menentukan aturan diskriminan. Fungsi kedua dinamakan sebagai evaluasi. Dengan data evaluasi ini kinerja aturan diskriminan diukur dengan l
n
APER
j 1 l
jM
n j 1
(31) j
Singkatnya, APER adalah persentase pengamatan yang dikelompokkan salah. Kelemahan APER terletak pada hasil yang terlalu optimis (Hubert dan Van Driessens, 2004; Johnson dan Wichern, 2002) karena data yang digunakan sebagai training juga digunakan sebagai data evaluasi. Melalui langkah serupa APER tetapi dengan membedakan data menjadi dua, yaitu data training dan data evaluasi dihasilkan Error-rate Estimate. Dengan membagi data menjadi dua, memudahkan dalam penentuan aturan diskriminan dan mengukur kinerja. Kelemahannya adalah hasil estimasi terhadap AER lebih rendah (underestimate). Kelemahan ini dapat diatasi dengan memperbesar jumlah sampel pada masing-masing kelompok. Kelemahan Error-rate Estimate yang hanya melalui satu kali pengukuran dapat diatasi dengan metode Holdout. Hubert dan Van Driessens (2004) menyebutnya sebagai metode Cross Validation dan Karsen (1972) menamainya
23
sebagai metode Jacknife. Menurut Johnson dan Wichern (2002) metode Holdout ini baik karena menyertakan seluruh pengamatan dalam mengukur kinerja aturan diskriminan akan tetapi Hubert dan Van Driessens (2004) menyatakan pada data yang besar prosedur ini membutuhkan waktu yang relatif lama. 2.6 Penentuan Rumah Tangga Miskin Pada bagian ini dibahas beberapa penentuan rumah tangga miskin. Metode penentuan rumah tangga miskin di Indonesia selama ini mengacu pada metode penentuan rumah tangga miskin BPS. Metode penentuan rumah tangga miskin yang paling populer adalah garis kemiskinan makanan dan non makanan biasa disebut garis kemiskinan. Garis kemiskinan makanan sendiri merupakan konversi minimum kalori yang harus tersedia setiap hari agar seseorang dapat melakukan kegiatan sehari-hari ke dalam bentuk rupiah. Menurut Ritonga (2004) penggunaan garis kemiskinan menemui beberapa kendala. Garis kemiskinan didasarkan pada SUSENAS Modul Konsumsi yang diselenggarakan setiap tiga tahun sekali. Jumlah sampel rumah tangga terpilih tidak sebesar SUSENAS Kor. Representasi garis kemiskinan hanya terbatas pada tingkat propinsi. Pada tahun 2000, BPS mencoba memperkenalkan konsep mikro penentuan rumah tangga miskin. Berdasarkan studi tersebut diperoleh delapan variabel yang layak dan operasional untuk penentuan rumahtangga miskin di lapangan (BPS, 2000), yaitu: luas lantai perkapita (lebih kecil atau lebih besar dari 8m2), jenis lantai (tanah atau bukan tanah), ketersediaan air bersih (tidak terlindung atau terlindung), keberadaan jamban (tidak ada atau ada), kepemilikan asset (tidak punya atau punya), variasi konsumsi lauk pauk (tidak bervariasi dan bervariasi), pembelian pakaian (tidak pernah membeli minimal satu stel pakaian dalam setahun atau pernah), kehadiran dalam kegiatan sosial (tidak pernah hadir atau pernah). Kedelapan variabel tersebut telah mencakup aspek sosial dan ekonomi penduduk/rumahtangga diantaranya aspek sandang, pangan, perumahan, kepemilikan asset dan aktivitas sosial dan telah disertakan dalam SUSENAS tahun 2002.
24