Statistika, Vol. 6 No. 1, 1 – 6 Mei 2006
Improvisasi Penaksir Model Linier Mulyana Jurusan Statistika FMIPA Unpad
1. Pendahuluan Dalam model linier dengan asumsi kekeliruannya berdistribusi identik independen dengan rata-rata 0 dan varians konstan sama dengan 2, menggabungkan antara penaksir aktual (nilai ramalan) dengan nilai rata-rata merupakan segi (aspect) penting dalam analisis regresi terapan. Misalkan sebuah pabrik farmasi membuat obat dengan formulasi baru dan ingin menelaah daya sembuhnya jika dibandingkan dengan formulasi lama, yang tingkat (lama) kesembuhannya dipengaruhi oleh beberapa variabel pada pasien. Dalam hal ini biasanya yang ditelaah pihak produsen adalah rata-rata tingkat kesembuhan, sedangkan pasien nilai aktualnya, sehingga persoalannya bagaimana menggabungkan kedua telaahan itu secara statistika ?
2. Teori Perhatikan model linier
Y X e
(1)
dengan
Y , vektor variabel respon (variabel tidak bebas) berukuran nx1 X, matriks variabel explanatory (variabel bebas) berukuran nxm , m < n, m > 2 , dengan rank penuh
, vektor parameter model berukuran mx1
e , vektor kekeliruan model berukuran nx1, dengan asumsi Ee 0 , dan E E E 2 I , I matriks identitas berukuran nxn Dengan menggunakan metode kuadrat terkecil, penaksir untuk adalah
1 X X X Y
(2)
yang merupakan statistik tak-bias dan bervarians minimum, sehingga penaksir aktual
untuk Y adalah Y X . Karena EY X , maka berdasarkan sifat kelinieran, penaksir untuk rata-rata Y ,
E Y adalah EY X , sehingga dari paparan tersebut tersurat bahwa X memiliki peran dua penaksir, yaitu sebagai penaksir nilai aktual dan nilai rata-rata untuk
Y.
Persoalannya
bagaimana menyajikan statistik X jika diinginkan perannya lebih dominan sebagai penaksir nilai aktual dari pada sebagai nilai rata-rata atau sebaliknya? Berdasarkan teori StatistikaMatematis, untuk keperluan tersebut diperlukan formulasi dari jumlah kuadrat kekeliruan model, agar bisa dibangun fungsi target beserta fungsi kegagalan (loss function) dan fungsi resikonya (risk function). Jumlah kuadrat kekeliruan model adalah
e e Y X Y X
(3)
yang jika dijabarkan akan diperoleh persamaan
1
2
Mulyana e e Y X Y X X X X X
(4)
Pada Persamaan (4) tersurat, fungsi kegagalan untuk penaksir
X
X
jika digunakan sebagai
dibangun atas kombinasi linier yang diboboti dengan persamaan
f X, X c Y X Y X 1 c X X X X
(5)
c: skalar nonstokastik, 0 < c < 1 Karena suku pertama pada Persamaan (4) merupakan jumlah kuadrat penaksir nilai
aktual Y dan suku keduanya jumlah kuadrat residu dapat dibangun berdasarkan persamaan
EY , sehingga fungsi target untuk Y
T 1 Y EY
(6)
: skalar nonstokastik, 0 < < 1 Dapat
ditunjukan
bahwa
T 1 Y E Y X
dan
ET X
yang
berarti
E T X , sehingga T identik dengan Y . Fungsi kegagalan untuk T jika digunakan sebagai penaksir T sama dengan f T, T T X
T X 2 1 Y X Y X 2 X X X X 21 Y X X X
(7)
Pada Persamaan (7) tersurat, dua suku pertamanya identik dengan Persamaan (5) dan suku ketiganya merupakan kovarian yang diboboti antara residu nilai aktual dengan residu rata-rata hitung Y . Sehingga Persamaan (7) merupakan pengembangan sederhana (simple extention) dari Persamaan (5), yang berarti Persamaan (7) merupakan fungsi kegagalan untuk
X (jika digunakan sebagai penaksir X ) yang sebaiknya digunakan, dengan fungsi resiko sama dengan
E f T, T (1 )2 E Y X Y X 2 E X X X X 2(1 )E Y X Y X yang sama dengan total dari penaksir rata-rata jumlah kuadrat kekeliruan (total predictive mean square error). Dari paparan ini disimpulkan bahwa formulasi untuk menggabungkan antara penaksir nilai aktual dengan rata-rata hitungnya harus mengikuti Persamaan (6). Shalabh (1999) mengemukakan, menggunakan fungsi resiko di bawah fungsi kegagalan dengan Persamaan (7) dapat digunakan dua bentuk penaksir untuk , yaitu
Statistika, Vol. 6, No. 1, Mei 2006
Improvisasi Penaksir Model Linier 3
penaksir kuadrat terkecil seperti pada Persamaan (2), dan penaksir berdasarkan aturan Stein (Stein-rule estimator), yang persamaannya
C a Y H Y S 1 n m 2 YHY
(8)
a: a > 0, skalar karakaterisasi penaksir 1 H XX X X , H C I H , I matriks identitas
Dapat ditunjukan
S
bukan penaksir takbias, dan akan merupakan penaksir takbias
jika Y H C Y 0 , yaitu jika Y Y (model regresi sangat cocok sebagai model ramalan), sehingga dalam penggunaannya harus dikombinasi linierkan dengan penaksir kuadrat terkecil, dengan persamaan
b (1 w ) w S
(9)
0<w<1, skalar nonstokastik Jadi dalam hal ini penaksir untuk
X , bisa digunakan
p X X XX XY H Y 1
(9)
atau
C C a a Y H Y YH Y pS XS X 1 HY H Y n m 2 Y HY n m 2 Y H Y
(10)
atau kombinasi liniernya
P (1 w )p w pS C a YH Y (1 w )H Y w H Y HY n m 2 YH Y C a YH Y HY w HY n m 2 YH Y
(11)
yang formulasinya setara dengan Persamaan (10). Jika p dan P digunakan sebagai penaksir untuk fungsi target T , maka
E T p E(1 )Y E Y H Y (1 )E Y E {E( Y )} HE Y (1 )E Y E( Y ) X( X X ) 1 X X E Y X X X 0
(12)
dan
C a Y H Y ET P E (1 )Y E Y H Y w HY n m 2 YHY C a Y H Y E(1 )Y E Y H Y Ew HY n m 2 YHY C C a a Y H Y Y H Y w HE Y w X n m 2 YHY n m 2 YHY
(13)
Statistika, Vol. 6, No. 1, Mei 2006
4
Mulyana
C a YH Y 1 , maka E T p ET P n m 2 YH Y
karena 0 w
Fungsi resiko jika p dan P digunakan sebagai penaksir untuk fungsi target T , masingmasing sama dengan
R P ET P T P 1 n 1 2 m
2 R (p) E T p T p 1 n 1 2 m 2 2
wa
(14)
2
1 nm 2m 2 wa 4 E n m 2 Y HY
(15)
Dari Persamaan (12), (13), (14) dan (15) dapat disimpulkan 1.jika
0 , maka
T Y,
R p n m 2 ,
R P n m 2 w 2 a 2
1 nm 4 , E n m 2 YHY
sehingga
R p R P . Hal ini berarti p superior dari P jika p digunakan sebagai penaksir nilai aktual
Y , dan karena p X , maka jika X digunakan sebagai penaksir nilai aktual Y maka nilai 2
2
resikonya sama dengan n m , varians residu 2.jika
0 1,
dan
wa 2m 2
jika
atau
a
2m 2 ,m 2 w
maka
n m 1 2m 2 wa 0 wa E n m 2 Y H Y
sehingga R p R P .
Hal ini berarti P superior dari p jika P digunakan sebagai
penaksir rata-rata Y , yang berarti X tidak sepenuhnya dapat dijadikan penaksir aktual Y karena terkombinasi dengan sebagai penaksir rata-rata
Dari paparan tersebut, disimpulkan jika X digunakan sebagai penaksir nilai aktual 2
2
Y , maka resikonya n m , varians residu, dan nilai ini akan cukup kecil jika model regresi cocok digunakan sebagai model ramalan, dan untuk penaksir rata-rata Y , E( Y ), sebaiknya digunakan statistik C a YH Y P X w X n m 2 YH Y 2
karena nilai resikonya lebih kecil dari n m , jika a
2m 2 ,m 2. w
3. Terapan Untuk menggunakan teori ini diperlukan dua kelompok sampel yang identik, dengan sampel kedua merupakan sampel lanjutan dari sampel pertama, misalnya untuk kasus pabrik farmasi seperti yang dikemukan pada pendahuluan, sampel pertama adalah tingkat penyembuhan obat dengan formulasi lama, dan yang kedua dengan formulasi baru. Jika model linier sampel pertama disajikan seperti pada Persamaan (1), maka untuk sampel kedua oleh
Statistika, Vol. 6, No. 1, Mei 2006
Improvisasi Penaksir Model Linier 5
Yf Xf ef
(16)
dengan Y t vektor berukuran kx1, Xf matriks berukuran kxm dengan rank penuh, mkn. Sudah dikemukakan pada teori, pada sampel pertama penaksir untuk X adalah
C a 1 Y H Y p X X X X Y atau P (1 w )p w p n m 2 YH Y dengan a mxm
2m 2 1 C , m 2 , H XX X X , H I H , I matriks identitas berukuran w
dan fungsi targetnya
T (1 )Y EY Y Y EY
sehingga pada sampel kedua penaksir untuk
Xf
dapat digunakan C
1 a Yf Hf Yf p f X f X f X f X f Y f atau P f (1 w ) p f w p k m 2 Yf Hf Yf f
dengan a berukuran kxk.
1 2m 2 C , m 2 , H f X f X f X f X f , H f I f H f , If matriks identitas w
dan fungsi targetnya
T f (1 )Y f EY f Y f Y f EY f
Pada sampel pertama, jika p sebagai penaksir T (atau X sebagai nilai ramalan Y ,
2
2
Y X ) maka nilai resikonya sama dengan n m , varians residu sampel pertama, dan
jika P sebagai penaksir T (atau P sebagai penaksir rata-rata Y , E Y P ) maka nilai 2
resikonya lebih kecil dari n m . Analog untuk sampel kedua, jika (atau
p f sebagai penaksir T f
X f sebagai nilai ramalan Y f , Y f X f ) maka nilai resikonya sama dengan 2
k m
f
, f
2
varians residu model sampel kedua, dan jika P f sebagai penaksir T f (atau P f
sebagai penaksir rata-rata Y f , E Y f P f ) maka nilai resikonya lebih kecil dari k m f . Sehingga jika hasil penaksiran pada sampel pertama dan kedua digabungkan, maka penaksir nilai aktual respon sama dengan 2
(1 ) p f p , dan penaksir rata-ratanya sama dengan
(1 )P f P .
4. Daftar Pustaka Searle, S. R., 1971, Linear Models, John Wiley & Sons, New York. Drafer, N. & Smith, H., 1981, Applied Regression Analysis, second edition, John Wiley & Sons, New York. Shalabh, 1999, Improving The Prediction in Linear Regression Models, Journal of Statistical Research, Vol. 3 No. 1 pp 33 – 39, Bangladesh. Graybill, F. A. , 1961, An Introduction to Linear Statistical Models, McGraw-Hill Book Co. Inc., New York
Statistika, Vol. 6, No. 1, Mei 2006
6
Mulyana
Berger, J. O., 1985, Statistical Decision Theory and Bayesian Analysis, second edition, SpringerVerlag, New York. Ohtani, K., 1998, The Excact Risk of Weighted Average Estimator of OLS and Stein-rule Estimator in Regression under Balanced Loss, Statistics & Decisions, Vol. 16, pp 35–45. Hogg, R. V. & Craig, A. T., 1978, Introduction to Mathematical Statistics, fourth edition, Macmillan Pub. Co. Inc., New York.
Statistika, Vol. 6, No. 1, Mei 2006