ESTIMASI MISSING DATA DALAM MULTIVARIAT BERDASARKAN DATA YANG TERAMATI
1
Hutrisah S.M Sitohang1, Prof. I Ketut Budayasa, Ph.D2. Jurusan Matematika, Fakultas Martematika dan Ilmu Pengetahuan Alam, UNESA Kampus Ketintang 60231,Surabaya Email :
[email protected],
[email protected]
diterapkan untuk menyelesaikan berbagai masalah prediksi dan penduga parameter. Banyak ahli matematika mempelajari tentang perluasan konsep tersebut. Salah satunya pada jurnal statistik yang berjudul A Note On The Missing Value Principle And The EM-Algorithm For Estimation And Prediction In Sampling From Finite Populations With A Multinormal Superpopulation Model yang disusun oleh S. Zacks dari N.Y, USA dan Josemar Rodriguez dari Brazil The University of Sao Paulo. Berdasar jurnal tersebut skripsi ini membahas mengenai estimasi missing data dalam multivariat berdasarkan data yang teramati. Bertujuan untuk mengestimasi fungsi likelihood untuk seluruh data Y teramati dan data sebanyak n data sampel teramati sehingga penduga parameternya maksimum.. Model linier Y X e berdistribusi normal untuk fungsi likelihood pada data teramati sebanyak n dengan n < N. Tulisan ini merupakan hasil rangkuman dan kolaborasi dari defenisi dan teorema pada sumber [4]dan [8].
ABSTRAK Missing data adalah informasi yang tidak tersedia dalam sebuah subyek atau kasus. Fenomena missing data banyak dijumpai dalam survei. Banyak hal yang menyebabkan terjadinya missing data. Sehingga terkadang beberapa pihak tertentu mengabaikan, menghapus sebagian variabel yang mengandung missing. Mengingat data sangat mahal dan berharga, maka penelitian ini, menduga parameter yang membuat fungsi likelihood maksimum untuk data yang seluruhnya teramati dan juga diamati sebanyak n anggota sebagai sampel (dengan n
bersyarat data tidak teramati Y juga akan maksimum. Algoritma EM adalah salah satu metode yang menangani kasus missing. Ketika algoritma EM menghasilkan nilai penduga parameter maka penduga parameter tersebut merupakan nilai tunggal yang tetap. Kata kunci : Missing data, Maksimum likelihood, Algoritma ekspektasi maksimum (EM).
2. KAJIAN PUSTAKA Pada bab ini akan dibahas mengenai beberapa defenisi, metode yang akan digunakan sebagai landasan teori pada pembahasan.
1. PENDAHULUAN Permasalahan missing data merupakan permasalahan yang sudah muncul sejak lama. Missing data pertama kali diperkenalkan oleh Orchard dan Woodbury (1972). Missing data merupakan informasi yang tidak tersedia dalam sebuah subyek atau kasus. Dalam Statistical Package for The Sosial Science (SPSS) missing data adalah adanya sel – sel kosong pada satu atau beberapa variabel. Banyak hal yang menyebabkan terjadi missing data, seperti peralatan yang tidak berfungsi dengan baik, kesalahan mekanis, penolakan dari responden untuk menjawab kuisioner, dan tidak adanya jawaban dari setiap pertanyaan yang spesifik sehingga tidak mengetahui variabel yang dipermasalahkan. Prinsip missing data telah banyak
2.1 Missing Data Missing data adalah informasi yang tidak tersedia untuk sebuah subyek (kasus). Dalam Statistical Package for the Social Science (SPSS) missing data adalah adanya sel-sel kosong pada satu atau beberapa variabel. Tujuan data missing untuk memprediksi dan mendapatkan cara penggantian suatu nilai konstanta terhadap nilai yang missing .
2.2 Pola missing data Ada beberapa jenis pola data missing yaitu :
1
pola data missing univariat, pola multivariat nonrespone, pola data missing monoton, pola data missing tanpa strutur khusus, pola matching pattern, pola faktor analisis.
2.5 Maksimum likelihood estimator Metode MLE (Maximum Likelihood Estimator) adalah suatu metode penaksiran parameter yang dapat digunakan untuk menaksir parameter suatu model yang diketahui distribusinya. Sebagaimana diketahui bahwa taksiran parameter melalui metode MLE adalah melakukan turunan parsial fungsi likelihood terhadap parameter yang akan ditaksir.
2.3 Asumsi mekanisme missing data Litlle dan Rubin (1987) mengklasifikasi mekanisme missing data dalam tiga hal yaitu: Missing Completely at Random (MCAR), Missing at Random (MAR), dan Non-ignorable.
Misal model linier Y X e , diasumsikan berdistribusi normal maka fungsi likelihood pada
2.4 Model regresi linier multivariat Model regresi linier Y X N 1
data teramati
e
N p p1
L ; y n
N 1
y n adalah ; 1
2 2 V11 2 n
1
12 n n e y X 1 V11 y X 1
Jika ditulis dalam bentuk matriks :
Dimana, estimasi fungsi likelihood (MLE) dari
Y1 X 11 X 12 Yn X n1 X n 2 Yn1 X n1 X n 2 YN X N 1 X N 2
akan maksimum jika
X 1p X np X n p X Np
1 e1 2 e2 p e N
,
= ˆ , dengan 1
ˆ X 1V111 X 1 X 1V111 y n . 2.6 Algoritma EM Algoritma (EM) merupakan metode yang digunakan untuk menemukan parameter-parameter maximum likelihood dari distribusi himpunan data yang diketahui, jika himpunan data tersebut incomplete atau mempunyai nilai yang hilang (missing value). . Pada beberapa permasalahan data incomplete , distribusi data lengkap (complete) Y dapat dihitung dengan :
Y ini adalah vektor pengamatan yang terdiri atas N populasi. Dimana vektor tersebut diamati sebanyak- n dengan n N berarti yang tidak teramati sebanyak N-n. Sehingga vektor Y dan V dapat dipartisi sebagai berikut :
y1 y 2 V11 V12 n y dan V Y y n N n V21 V22 Y y n 1 y N
PY | P y n | P Y N n | y n ; Persamaan diatas dengan nilai sebagai berikut :
dapat dituliskan
l | Y l | y n log P Y N n | y n , c dengan c adalah konstanta sembarang. Johnson dan Wichern (2002) menyatakan bahwa EM algoritma terdiri atas tahap prediksi (prediction step) tahap estimasi (estimation step) dan tahap maksimum (maximation step).
Dimana :
V11 berordo n n Submatriks V12 berordo n N n Submatris V21 berordo N n n Submatriks V22 berordo N n N n
2.7 Turunan matriks
Submatriks
y1 x1 y x 2 2 Jika vektor Y dan vektor X ym xn 2
y1 x 1 y Y 2 x 2 X y m x n
y 2 x1 y 2 x 2 y m x n
1
Untuk mendapatkan ˆ X V X X V Y akan dicari fungsi likelihood dengan mengalikan terhadap logaritma natural, diperoleh sebagai berikut :
Maka didefinisikan :
y1 x1 y 2 x 2 y m x n
ln L ; Y ln ln L ; Y ln
1
1
2
N 2
V
1
2
N 2
V
1 2
1 2
e
1
1 Y X V 1 Y X 2
1 Y X V 1 Y X ln e 2
Beberapa sifat turunan matriks :
f f A dan A x x 2. Jika A matriks persegi dan y f x xAx f f sehingga A Ax dan x A A x x 3. Jika A matriks simetri maka A A sehingga f 2 Ax x 1. Jika
1 (3.1.1) Y X V 1 Y X 2 2 V Selanjutnya mencari nilai penduga yang memakimumkan fungsi likelihood tersebut. Dilakukan dengan menurunkan parsial terhadap parameter , kemudian persamaan hasil turunan disamadengankan nol.
y f x Ax maka
ln
2
V
V
1 2
1 Y X V 1 Y X 2
1 1 Y X V Y X 2
ln L ; Y 0
f A Ax x 1 1 Y X V Y
2
1 Y X V 1 Y X 2
X
1 X V 1 V 1 Y X 2
Karena 1
terhadap
maka
diamati sebanyak Y, maka penduga parameter akan maksimum jika ˆ X V 1 X
ln L ; Y
atau 1 Y X V 1 Y X 0 2 Berdasar sifat turunan matriks y f x xAx
Jika diberikan fungsi likelihood yang berdistribusi
e
N 2
MLE diperoleh jika
Teorema 3.1
1 2
1
2
Pada teorema berikut akan dibuktikan jika data yang digunakan teramati seluruhnya berdistribusi normal ketika suatu populasi Y teramati seluruhnya, dan kemudian dicari penduga parameter yang membuat fungsi likelihood maksimum .
N 2
parsial
1 2
N 2
3.1 Mengestimasi Fungsi Likelihood Untuk Seluruh Data Y Teramati.
turunan
parameter adalah : 1 1 ln Y X V 1 Y X 2 2 V
Pada pembahasan berikut beberapa permasalahan akan dibahas yaitu mengestimasi fungsi likelihood untuk seluruh data Y teramati sehingga penduga parameternya maksimum, mengestimasi fungsi likelihood jika sebanyak n data sampel teramati dan mengestimasi fungsi likelihood N n data yang tidak teramati
1
1 2
N 2
Untuk
3. PEMBAHASAN
normal L ; Y
1
ln
V 1 matriks simetris maka
X V Y .
1 Y X V 2
Bukti :
3
1
2V
simetri V 1 V 1 .Jadi V 1 V 1 Dengan demikian ,
1
V juga
1
Y
X
1
.
1 X 2V 1 Y X 2 X V 1 Y X
f y n , Y N n 2
X V 1Y X V 1 X Diperoleh persamaan karateristik : X V 1Y X V 1 X 0 ini ekivalen dengan : X V 1 X X V 1Y
2
Maka , X V 1 X
X V
Jadi, penduga parameter fungsi likelihood adalah :
N 2
Y. yang memaksimumkan
f y
n
1 2
Teorema 3.2 Fungsi L ; y n
akan
maksimum
V V y Karena
harapan
jika
dan
n
n
1
A V21V111
N n
n
X 2 V V X1 1 dan B X 2 V21V11 X 1 , 1 21 11
Y
N n
diberikan
p 1
n
B
pada teorema 3.2 dan nilai
y n dan pada teorema
p sebagai
y n 1 1 1 ( X 1 V11 X 1 ) X 1V11 n p Ay B
Jika V 1 11
21
Fungsi padat peluang Y dalam adalah :
p
Teorema 3.3 E Y N n | y n , Ay n B , 1 1 dimana A V21V11 dan B X 2 V21V11 X 1 Bukti :
Dimana matriks yang entrinya sembarang bilangan. Selanjutnya klaim :
n
.
y .
3.3, kita definisikan suku barisan berikut :
Teorema berikut adalah ekspektasi (nilai harapan )
y
3.3 Mengestimasi fungsi likelihood N n data yang tidak teramati jika diberikan data termati.
jika diberikan subvektor
1 12 y n a K 1 y n a
K 2e
maka E Y | y , Ay Dengan demikian teorema terbukti.
Bukti : Analog dengan bukti teoerma 3.1 N n
X 2 V21V111 y n X 1
Dari penduga
N n / 2
1 21 11
1
Y
e
1 n 12 y n 1 V11 y 2
E Y N n | y n , 2 V21V111 y n 1
ˆ dengan ˆ X 1V111 X 1 X 1V111 y n .
subvektor acak
12
n2
1
12 n 1 n e y X 1 V11 y X 1
e
dengan a 2 V21V11 Dengan demikian,
y n adalah :
2 2 V11
12
y n 1 1 y n 1 1 N n 2 V N n 2 Y Y 2
, 2 V11
Misalkan dari populasi yang beranggotakan sebanyak N, tidak semuanya teramati. Berarti ada data yang tidak teramati atau hilang (‘missing’). Misalkan data yang teramati hanya sebanyak n dengan n < N. Berarti yang tidak teramati sebanyak N n . Sehingga vektor Y dan V dapat dipartisi sebagai berikut : Fungsi likelihood dari , didasarkan atas submatriks
L ; y
K
f Y N n | y n , 2
3.2 Mengestimasi Fungsi Likelihood Jika Sebanyak N Data Sampel Teramati
1
n
sehingga,
Dengan demikian teorema terbukti.
n
12
1 1 y n 1 V11 V12 y n 1 N n 2 V22 Y
1
K 1 K 1V21V111 V 1 1 1 1 1 1 1 V11 V11 V12 K V21V11 V11 V12 K
1
pengamatan
V11
V11 V12 2 2 Y N n 2 V21 V V e 21 22
K V22 V21V111V12
dengan
ˆ X V 1 X X V 1Y .
N 2
12 22
maka :
V V V V V V V 1 12 V111V12 V22 V21V111V12 1 12 V111V12 V22 V21V111V12 11
y n dan Y N n
21
4
1 11
1 11
12
12
22
1 21 11
1
12
V21V111
(3.1.5)
Bukti (3.1.5) telah dibuktikan dalam Applied Multivariate Statistical Analysis [4, hal. 170] oleh Johnson dan Wichern . Didefenisikan vektor yang entri – entrinya adalah fungsi dalam sebagai berikut :
3. Untuk mengestimasi nilai harapan bersyarat
y n dan parameter. p 4. Limit dari barisan untuk p adalah titik tetap dari fungsi H dan penduga dari titik tetap fungsi H adalah tunggal. dibutuhkan data teramati
1 y n H X 1 V111 X 1 X 1V111 n Ay B
4.2 Saran
p untuk p adalah titik tetap dari fungsi H . Selanjutnya akan ditunjukkan bahwa penduga Jelas
bahwa
limit
dari titik tetap fungsi
dari
Dalam penelitian ini penulis hanya membahas tentang mengestiamsi parameter yang membuat fungsi likelihood maksimum dengan menggunakan maximum likelihood dan pendekatan algoritma EM. Bagi para pembaca yang tertarik mengembangkan dapat menggunakan metode lain.
barisan
H adalah tunggal yaitu ˆ .
Teorema 3.4
DAFTAR PUSTAKA [1] Anderson , T.W. An
1
H ˆ X 1 V111 X 1 X 1V111 y n
adalah
tunggal. Bukti: Misalkan Maka,
[2]
Q X V 1 X
Q X 1 11 X 1 X 1 12 X 2 21 X 1 X 2 X 2
Sebuah titik (nilai) jika dan hanya jika :
merupakan
[3]
sebuah titik tetap
Q X 1 11 12 A X 2 21 22 A y n X 1 12 X 2 22 B
Ini ekivalen dengan :
[4]
Q X X n 1 12 2 22 B X 1 11 12 A X 2 21 22 A y
[5]
Selanjutnya dari (3.1.5) diperoleh: 1 1 X V 1 X X V 1 X X V 1 X X V 1 y n 1 11 1 11 1 1 11 1 1 11 1
ˆ
adalah titik tetap yang tunggal dan
konvergen ke
. Dengan demikian teorema terbukti.
Sehingga,
[6] [7]
4. PENUTUP 4.1 Simpulan Berdasarkan rumusan masalah dan hasil pembahasan sebelumnya, diperoleh beberapa kesimpulan sebagai berikut : 1. Mengestimasi fungsi likelihood untuk seluruh data Y teramati sehingga penduga parameternya maksimum dapat diperoleh dengan metode maksimum likelihood. 2. Penduga parameter untuk seluruh data teramati dan yang sebagian teramati ternyata berbeda.
[8]
5
Introduction To Multivariate Statistical Analysis. Second Edition. Dempster , A. P., Laird, N.M dan Rubin, D.B. (1977) Maximum Likelihood From Incomplete Data Via The EM Algorithm (with discssion). Journal of the Royal Statistical Society, Series B, 1-38 .249-261. Howell , David . C. .Pengobatan Data Hilang. (Online),(file:///E:/science%20direc%20missin% 20value/hub/pengobatan%20dt%20hilang.htm) (diakses 31 Maret 2012). Johnson , Richard. A. dan Wichern , Dean W. Applied Multivariate Statistical Analysis, Sixth Edition. Madison : University of Wisconsin and Texas A & M University. Litte , R.J.A and Rubin , D.B (2002) . Statistical Analysis Missing Data. Wiley Series in Probability and Statistic. Wiley-Interscience [Jhon Wiley & Sons], Hoboken , NJ, Second Edition. Mayann, Hill, Tanpa tahun. SPSS Missing Value Analysis 7.5. (Online),(http://www. spss.com ) (diakses senin, 8 oktober 2012). Schafer, J.L. (1997) Analysis of Incomplete Multivariate Data. Chapman & Hall, London.Department Of Statistics The Pennsylvania State University USA. Zacs, S. Dan Rodriguez, Josemar. (1986) A Note On The Missing Value Principle And The EM-Algorithm For Estimation And Prediction In Sampling From Finite Populations With A Multinormal Superpopulation Model. Journal Of The Royal Statistics & Probability Letters 4 (1986) 35-37 North – Holland.