4 SIFAT-SIFAT STATISTIK DARI REGRESI KONTINUM
Abstrak
Matriks pembobot W pada Regresi Kontinum diperoleh dengan memaksimumkan fungsi kriteria umum ternyata menimbulkan masalah dari aspek statistika. Prinsip dari fungsi kriteria umum adalah memaksimumkan koragam antara X dengan Y dan pada saat yang bersamaan juga memaksimumkan ragam dari X. Dengan demikian, pada matriks pembobot W mengandung peubah Y yang bersifat acak. Bila matriks W diasumsikan ditentukan (fixed variable) maka penduga koefisien regresi bersifat tak bias dengan ragam minimum, sedangkan untuk mendapatkan selang prediksi y digunakan aproksimasi. 112Kata kunci : fungsi kriteria umum, matriks pembobot, aproksimasi selang prediksi
Abstract
Weighted matrix W in the continuum regression obtained from maximizing the generalized criterion function has generated statistical problems. The principle of the generalized criterion function is to maximize covariance XY and variance of X. Therefore, Y variable in the weighted matrix W has random character. If the matrix W can be determined (fixed variable), the estimator of regression parameters are unbiased with minimum variance and while the prediction interval of y can be used approximation. Keyword: generalized criterion function, weighted matrix, prediction interval approximation
55 Pendahuluan
Regresi kuadrat terkecil parsial (RKTP), regresi komponen utama (RKU) dan regresi kontinum (RK) dikembangkan
dari model regresi linear ganda
y = X β + ε dengan X adalah matriks peubah bebas berukuran nxp, y adalah vektor peubah respon berukuran nx1, β adalah parameter regresi berukuran px1, dan ε adalah vektor galat berukuran nx1. Sejumlah asumsi yang melekat pada metode kuadrat terkecil juga masih diperlukan. Prinsip yang membedakan ketiga metode tersebut terletak pada matriks pembobot W yang besarnya dicari dengan cara memaksimumkan fungsi kriteria umum. Matriks pembobot W dalam RK mengandung peubah Y yang bersifat acak, sehingga untuk mencari sifat-sifat statistik dari hasil dugaan RK sulit dilakukan secara analitik.
Penelitian ini bertujuan untuk mengkaji sifat-sifat
statistik dari RK, khususnya sifat-sifat dari hasil pendugaan RK, dan menerapkannya pada data simulasi. Bab ini merupakan pengembangan dari artikel yang ditulis Setiawan dan Notodiputro (2006b). Metode
Metode yang digunakan dalam penelitian ini mencakup kajian teoritis dan empirik. Untuk mendapatkan formula sifat-sifat statistik dari RK digunakan kajian teoritis, selanjutnya formula tersebut diterapkan untuk kajian empirik dengan menggunakan data hasil simulasi. Tahapan simulasi disajikan pada Lampiran 1. Analisis data dengan menggunakan metode RK-TWD terbagi dalam dua tahap yaitu membangun model dan validasi model. Tahap 1 Membangun model dengan langkah-langkah sebagai berikut : a. Data hasil simulasi berupa matriks peubah bebas X berukuran nxp ( p = q = 2 M ; M = 1,2,... yang merupakan syarat dalam TWD), pada kajian ini 30x32, dan peubah respon y berukuran nx1 (30x1) dibagi menjadi dua kelompok secara acak, kelompok pertama n1 (25) pengamatan digunakan untuk membangun model dan kelompok kedua n 2 (5) pengamatan untuk validasi model.
56 b. Dapatkan matriks TWD B berukuran pxp. c. Dapatkan matriks D dengan rumus D ( n1xp ) = X ( n1 xp ) B T( pxp ) , kemudian pilih level-level resolusi tertentu sedemikian hingga banyaknya koefisien wavelet yang terpilih sebesar p' dengan p' < (n1 −1) < p . Selanjutnya diperoleh D *( n1 xp ') = X ( n1 xp ) B *( Tpxp ') yang mereduksi pengamatan dari p titik tiap-tiap contoh menjadi p ' titik koefisien wavelet yang terpilih. Dalam
software wavetresh 3 (Nason 1998) terdapat 10 level mother wavelet Daubechies (D-1 sampai D-10) sehingga akan diperoleh 10 matriks D * berukuran (n1 xp' ). d. Meregresikan peubah respon y ( n x1) terhadap matriks peubah bebas D *( n1xp ') 1
(D-1 sampai D-10) dengan menggunakan metode regresi kontinum. Sedangkan dalam mencari matriks pembobot digunakan dua pendekatan yaitu pendekatan 1 dan pendekatan 2. Pada pendekatan 1, langkah ini
δ
diulang pada
tertentu yang terletak antara
0 ≤ δ ≤1
sampai
mendapatkan model terbaik, sehingga mendapatkan model : y = D* β + ε . Karena pada matriks D* masih terdapat masalah kolinearitas ganda, maka dilakukan transformasi Th = D * Wh sehingga model menjadi y = Th ξ + ε . Selanjutnya dilakukan pendugaan parameter regresi dengan metode kuadrat terkecil sebagai berikut :
ξˆ δ ,h = (ThT Th ) ThT y −1
yˆ δ ,h = Tξˆ = D * Wh ξˆ δ ,h = D * βˆ
Tahap 2
Validasi model dengan langkah-langkah sebagai berikut : a. Melakukan prediksi nilai y pada kelompok data validasi dengan menggunakan model
yang dihasilkan pada tahap 1, dengan langkah-
langkah sebagai berikut : •
T
Perkalian antara vektor pengamatan ke-i x (i ) berukuran (1xp) dengan *T
matriks transformasi wavelet B * sehingga diperoleh vektor d (i ) *T
dengan rumus d (i ) = x (i ) B *( Tpxp ') . T
57 *T
•
Selanjutnya dapatkan t (i ) = d ( i ) W .
•
Memprediksi nilai y dengan rumus :
T
T T T yˆ (i ) = y predik (i ) = t (i ) ξˆ = d (i ) Wξˆ = d (i ) βˆ ; i = 1,2,..., n2 .
b. Selanjutnya dilakukan validasi model dengan kriteria : •
RMSEP yang merupakan salah satu ukuran kebaikan hasil prediksi
•
2 koefisien determinasi hasil prediksi (R predik )
•
sifat-sifat statistik dari hasil dugaan regresi kontinum.
Untuk mengevalusi kinerja RK-TWD ada beberapa kriteria yang 2
2 dibandingkan, antara lain : R 2 , R , s, R predik , RMSEP, plot antara y dengan yˆ , plot
antara y dengan y predik , serta lebar selang prediksi. Model dikatakan lebih baik jika 2
2 R 2 , R , R predik lebih tinggi, s dan RMSEP lebih kecil, hasil pengepasan lebih dekat
ke garis lurus dengan gradien 450 melalui pusat, serta lebar selang prediksi yang sempit. Sifat-sifat Statistik dari Regresi Kontinum Sifat-sifat statistik yang dikaji meliputi : bias, ragam dari penduga parameter regresi dan prediksi, serta selang prediksi. Ketakbiasan dalam Pendugaan Parameter Model umum regresi ganda y = Χ β + ε . Karena pada matriks X terdapat masalah singularitas dan atau ill conditioned, maka dilakukan transformasi peubah dengan formula sebagai berikut : Th = XWh dan Wh = (w1 , w 2 ,..., w h ) matriks berukuran (pxh) dengan {h < p < (n − 1)} dan disebut matriks pembobot, Th adalah matriks peubah baru berukuran (nxh). Dengan demikian model dapat diubah menjadi y = Th ξ + ε . Karena pada matriks Th sudah tidak ada masalah singularitas atau ill conditioned, maka pendugaan parameter ξ dapat dilakukan dengan menggunakan metode kuadrat terkecil yang diformulasikan sebagai berikut :
ξˆ δ ,h = (ThT Th ) ThT y . −1
(78)
58 Nilia harapan dari ξˆ dengan syarat W ditentukan (fixed variable) adalah :
[
−1 E ⎡ξˆ δ ,h W ⎤ = E (ThT Th ) ThT y W ⎢⎣ ⎥⎦
]
= E[(ThT Th ) −1 ThT (Th ξ + ε ) W] = ξ + E[(ThT Th ) −1 ThT ε W ] = ξ + E[( WhT X T XWh ) −1 WhT X T ε W ] = ξ + [( WhT X T XWh ) −1 WhT X T E (ε )] = ξ.
(79)
Jadi ξˆ δ ,h merupakan penduga takbias bagi ξ bila matriks W bersifat fixed variable (bukan peubah acak). Prisnsip dari matriks pembobot W pada RK sama dengan peranan matriks pembobot pada regresi kuadrat terkecil tertimbang (weighted least squares). Pada regresi kuadrat terkecil tertimbang, bila matriks pembobot diketahui (fixed variable), maka penduga yang dihasilkan bersifat takbias dengan ragam minimum. Dalam prakteknya hal tersebut sulit dipenuhi, sehingga matriks pembobot diperoleh dari hasil pendugaan.
Pada keadaan ini harus hati-hati, karena
bagaimanapun penggunaan penduga sebagai pengganti tidak mungkin sesuai jika didasarkan pada informasi yang terbatas (Myers 1990).
Logika inilah yang
digunakan untuk mempelajari sifat-sifat statistik dari RK, khususnya dalam menyikapi matriks pembobot W. Ragam dan Simpangan Baku untuk ξˆ δ ,h Untuk mendapatkan ragam dari ξˆ dengan syarat W diketahui digunakan formula sebagai berikut : Var (ξˆ δ ,h W) = Var[(ThT Th ) −1 Τ Th y W] = Var[( WhT X T XWh ) −1 WhT X T y W ] = (WhT X T XWh ) WhT X T Var ( y ) XWh ( WhT X T XWh ) −1 −1
= ( WhT X T XWh ) −1 σ 2 .
(80)
59 Pendugaan y untuk data rata-rata Salah satu tujuan dari pemodelan adalah menduga (meramal) nilai peubah respon Y berdasarkan nilai peubah bebas X yang dimiliki. Misalkan terdapat nilai pengamatan x 0 untuk menduga nilai y 0 digunakan formula sebagai berikut : T T yˆ 0 = t 0 ξˆ δ , h = x 0 Wh ξˆ δ ,h .
(81)
Sedangkan untuk mencari ragam dan simpangan baku digunakan formula :
( ) = Var (( x W ξˆ ) W )
T Var ( yˆ 0 W ) = Var (t 0 ξˆ δ ,h ) W T 0
h
δ ,h
( )
T = x 0 Wh Var ξˆ W WhT x 0
Sedangkan untuk simpangan baku digunakan formula : s ( yˆ 0 ) = Var ( yˆ 0 ) .
(82)
Prediksi nilai y untuk Pengamatan Baru Untuk memprediksi nilai peubah respon pengamatan baru digunakan formula sebagai berikut : T T y predik (i ) = yˆ ( i ) = t ( i ) ξˆ δ ,h = x (i ) Wξˆ δ ,h .
(83)
Untuk mendapatkan selang prediksi dari y digunakan formula : yˆ (i ) ± 2 x(SEP) ≈ yˆ (i ) ± 2 x(RMSEP)
(84)
yang merupakan aproksimasi selang prediksi 95%. Regresi Kontinum dengan prapemrosesan transformasi wavelet diskret (RK-TWD) pada dasarnya adalah regresi kontinum terhadap koefisien wavelet. Sehingga matriks peubah bebas X pada regresi kontinum diganti dengan matriks koefisien wavelet D*. Dengan demikian sifat-sifat statistik dari RK-TWD sama dengan pada RK dengan mengganti matriks peubah bebas X dengan matriks koefisien wavelet D*.
60 Hasil Simulasi Pemodelan antara peubah respon Y terhadap matriks koefisien wavelet diskret (D) dilakukan dengan menggunakan data kelompok-1. Model terbaik terbentuk dengan mengambil 16 koefisien wavelet pada resolusi 0, 1, 2, 3 serta 1 koefisien untuk fungsi skala untuk mother wavelet Daubechies-10. Ringkasan ukuran kebaikan model disajikan pada Tabel 7. Tabel 7 Ringkasan ukuran kebaikan model
δ
h
R2
R2
s
2 R predik
RMSEP
Pendekatan-1 0.125 0.200 0.250 0.300 0.450 (RKTP) 0.500 (RKU) 1.000 Pendekatan-2
2 2 2 2 2 2 2
0.9321 0.9268 0.9268 0.9268 0.9176 0.9122 0.8935
0.9291 0.9255 0.9255 0.9237 0.9140 0.9084 0.8888
0.0709 0.0727 0.0727 0.0736 0.0781 0.0806 0.0888
0.968 0.945 0.957 0.955 0.953 0.953 0.883
0.0443 0.0589 0.0534 0.0555 0.0602 0.0617 0.0831
3
0.9245
0.9176
0.0760
0.944
0.0598
Dari Tabel 7 tersebut dapat dilihat bahwa model terbaiknya adalah hasil 2 metode RK pada δ = 0.125 , karena pada kondisi tersebut diperoleh R 2 , R predik
serta RMSEP terbaik. Selanjutnya model yang dianalisis adalah model RK pada
δ = 0.125 . Tabel 8 menyajikan dugaan dari y serta ragam dari yˆ , sedangkan Tabel 9 menyajikan prediksi dan selang prediksi untuk y yang diperoleh dari aproksimasi. Dari Tabel 8 dapat dilihat bahwa selang prediksi untuk y relative sempit dan semua nilai μ y maupun nilai pengamatan y berada dalam selang prediksi.
61
Tabel 8 Nilai dugaan y untuk data kelompok 1
μ y = y asli
y
yˆ
s ( yˆ )
0.94064 1.12288 1.31909 0.81541 0.93446 1.01848 0.57549 0.92242 0.90469 1.23650 1.34353 0.77198 1.01421 0.97891 1.05472 0.98066 0.62839 0.47088 1.23178 1.13605 1.17056 0.90895 1.45847 1.28500 0.93130
1.09311 1.34589 1.48550 0.81581 0.90300 0.99009 0.57864 0.88554 0.90095 1.11228 1.27481 0.81608 1.06923 1.03137 1.09139 1.07211 0.70565 0.47593 1.05922 1.41614 1.27384 0.89968 1.47027 1.28511 1.01107
1.0397 1.3043 1.413 0.8542 0.8777 1.0516 0.5728 0.9605 0.8156 1.2538 1.3099 0.8602 1.0539 1.0817 1.1330 1.0279 0.6915 0.5652 1.1309 1.2807 1.2271 0.7905 1.5342 1.2684 0.9642
0.0106210 0.0130583 0.0208842 0.0131145 0.0122812 0.0107356 0.0098598 0.0291648 0.0329777 0.0138891 0.0197314 0.0166272 0.0111853 0.0183996 0.0157096 0.0257986 0.0139662 0.0462254 0.0354258 0.0130686 0.0428627 0.0139753 0.0283029 0.0118321 0.0132541
Tabel 9 Hasil prediksi nilai y untuk data kelompok validasi
μ y = y asli
y
y predik
0.98135 1.29393 0.60471 1.25904 1.15720
1.17228 1.29776 0.64659 1.24146 1.18232
1.09616 1.30266 0.65368 1.19549 1.22551
Selang prediksi 95% Batas Batas Lebar bawah atas selang 1.00756 1.21406 0.56508 1.10689 1.13691
1.18476 1.39126 0.74228 1.28409 1.31411
0.1772 0.1772 0.1772 0.1772 0.1772
62 Simpulan Pada RK dengan model y = Χ β + ε kemudian dilakukan transformasi peubah baru Th = XWh sehingga model menjadi y = Th ξ + ε . ξˆ merupakan penduga takbias bagi ξ dan mempunyai ragam minimum bila W diasumsikan diketahui (fixed variable). Sedangkan untuk mendapatkan selang prediksi y digunakan aproksimasi. RK-TWD pada dasarnya merupakan kombinasi antara RK dengan TWD, oleh karena itu sifat-sifat statistik pada RK juga berlaku pada RKTWD. Dari formula yang digunakan untuk mencari selang prediksi y, ternyata secara empirik didapatkan lebar selang yang relatif sempit.
Sehingga dapat
disimpulkan bahwa pendugaan dengan metode RK-TWD akan diperoleh model dengan tingkat akurasi yang tinggi