PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
(R.17) ESTIMASI SMOOTHING SPLINE PADA FUNGSI VARIANSI BERDISTRIBUSI GAMMA DALAM PENDEKATAN REGRESI NONPARAMETRIK Sifriyani Dosen Program Studi Statistika FMIPA Universitas Mulawarman, Samarinda, Indonesia tlp: 085242592527 Email :
[email protected] Abstrak Spline merupakan pendekatan yang digunakan untuk mengestimasi kurva regresi yang tidak diketahui bentuknya dalam regresi nonparametrik.Selain itu, Spline dapat pula digunakan untuk mengestimasi fungsi variansi. Pendekatan spline didasarkan pada ruang sobolev yang dimotivasi oleh sifat kemulusan (smoothness). Penelitian ini mengkaji estimator spline untuk mengestimasi fungsi variansi yang diasumsikan berdistribusi gamma. Selanjutnya mengkaji metode Unbiased Risk (UBR) dan metode Generalized Cross Validation (GCV) untuk memilih parameter penghalus yang optimal pada fungsi variansi. Diselidiki pula performance (kebaikan) metode UBR dan metode GCV berdasarkan nilai MSE terkecil dengan menggunakan data simulasi. Berdasarkan hasil simulasi diperoleh untuk ukuran sampel 25 metode UBR lebih baik dibandingkan dengan metode GCV. Sedangkan untuk ukuran sampel 50 dan 100 diperoleh metode GCV lebih baik dibandingkan dengan metode UBR dalam pemilihan parameter penghalus untuk fungsi variansi. Kata Kunci : Fungsi Variansi, Generalized Cross Validation (GCV), Spline, Unbiased Risk (UBR).
1. PENDAHULUAN Diberikan data berpasangan xi , zi , i 1,2,, n dan hubungan antara xi dan zi mengikuti model:
zi g xi i , i 1, 2,, n
xi 0,1
(1)
zi adalah variabel respon pengamatan ke- i , g xi adalah fungsi regresi, dan i adalah error random pengamatan ke- i yang berdistribusi normal independen dengan mean nol dan variansi 2 . Estimasi fungsi g dalam analisis regresi dapat diselesaikan dalam beberapa metode sesuai dengan asumsi yang dimilikinya, yaitu regresi parametrik, regresi nonparametrik dan regresi semiparametrik. Ada beberapa pendekatan untuk mengestimasi fungsi g xi dalam regresi nonparametrik antara lain pendekatan kernel (Hardle, 1990), spline (Wahba,1990), K-Nearest Neigbor (Hardle, 1990), Estimator Deret Fourier (Eubank, 1988), dan Histogram (Green dan Silverman,1994). Pendekatan regresi nonparametrik yang Jurusan Statistika-FMIPA-Unpad 2011
236
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
cukup populer adalah spline. Spline merupakan potongan-potongan polinomial yang memiliki sifat tersegmen yang kontinu. Sifat inilah yang memberikan fleksibilitas yang lebih dari pada polinomial biasa, sehingga memungkinkan untuk menyesuaikan diri secara efektif terhadap karakteristik lokal dari suatu fungsi. Pada pendekatan spline fungsi g xi diasumsikan termuat dalam suatu ruang Sobolev (Eubank, 1988). Perkembangan baru dalam regresi, pendekatan spline juga digunakan untuk mengestimasi fungsi variansi. Pada model regresi (1) diasumsikan variansi 2 homogen yaitu penyebaran data konstan. Pada kasus khusus sering ditemukan model regresi dengan 2 variansi tidak konstan atau variansi i tidak homogen. Kasus tersebut diperlihatkan pada
model regresi berikut:
zi g xi i xi i , i 1, 2,, n
xi 0,1
(2)
i adalah error random pengamatan ke- i yang berdistribusi normal independen dengan mean nol dan variansi 1. Dari uraian diatas, pada penelitian ini akan dikaji pendekatan spline untuk mengestimasi variansi yang tidak homogen, khususnya akan dikaji fungsi variansi yang diasumsikan berdistribusi gamma. Pemilihan parameter penghalus yang optimal merupakan hal yang sangat penting dalam estimator spline untuk fungsi variansi. Hal tersebut disebabkan oleh nilai yang sangat kecil atau besar akan memberikan bentuk fungsi penyelesaian yang sangat kasar atau sangat mulus (Wahba, 1990 dan Eubank, 1988). Dalam penelitian akan dikaji pemilihan parameter panghalus dengan menggunakan metode Unbiased Risk (UBR) dan metode Generalized Cross Validation (GCV). Beberapa penelitian sebelumnya untuk fungsi variansi telah dilakukan oleh Huang dan Pan (2002), Wang dan Guo (2004) menggunakan estimasi spline untuk fungsi variansi yang dikhususkan untuk mendeteksi gen. Cui, Hwang, Qiu, Blades dan Churchill (2005) menggunakan metode variansi dengan permasalahan replikasi yang kecil pada array eksperimen. Yuan dan Wahba (2004), Dai dan Guo (2005) melakukan penelitian yang berkonsentrasi pada regresi heteroskedastisitas, mencari estimasi fungsi variansi dengan menggunakan local polinomial smoothers dan smoothing spline. Yuan dan Wahba (2004) memilih parameter smoothing pada estimasi fungsi variansi dengan menggunakan metode Generalized Approximate Cross Validation (GACV).
Jurusan Statistika-FMIPA-Unpad 2011
237
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Berdasarkan uraian diatas, dalam penelitian ini juga akan dikaji perbandingan performance metode UBR dan metode GCV dalam pemilihan parameter penghalus yang optimal untuk fungsi variansi.
2. ESTIMATOR SPLINE UNTUK MENGESTIMASI FUNGSI VARIANSI Diberikan fungsi variansi yang diasumsikan mengikuti fungsi gamma sebagai berikut :
k 2e f xi yi xi Gamma , k 2 Fungsi Distribusi Peluang untuk fungsi variansi diberikan oleh:
1
f yi f xi
2e k
yi
k 2
k 1 2
e
yi 2 f xi e k
k 2
k
2 2 k f xi k k 1 f xi yi e k 2 yi 2 e 2 k 2
(3)
Fungsi likelihood diberikan oleh:
k k 2 n k n 1 k n k n 2 f x 2 n log log y f x yi e i l f y i i i i k i 1 2 i 1 2 i 1 i 1 2
m asumsikan bahwa fungsi f W2 f ;
1
f x m
0
2
(4)
dx .
Estimasi untuk f diperoleh dengan meminimumkan penalized likelihood: n
n li f yi 2 i 1
1
f x m
2
dx .
(5)
0
Untuk menyelesaikan optimasi ini dapat digunakan pendekatan spline. Estimator spline dapat ditulis sebagai berikut: m
n
f x d ii x ci R xi , x i 1
(6)
i 1
T
T
x d x c T dengan d d1
d2 dm dan cT c1 c2 cn
Jurusan Statistika-FMIPA-Unpad 2011
238
PROSIDING Seminar Nasional Statistika | 12 November 2011 m 1
ISSN : 2087-5290. Vol 2, November 2011
m 1
1 x t x t xi 1 R x , x dt ; i x , i 1, , m i i 2 i 1! m 1 ! 0 T
T
x 1 x , 2 x , , m x dan x R x1 , x , R x2 , x , , R xn , x Dengan mensubstitusikan persamaan (6) ke (5), maka estimasi c dan d dapat diperoleh dengan meminimumkan persamaan: n
T
T
I c, d li xi d xi c i 1
n T c Q c 2
(7)
dengan :
Q x1 x2 xn
R x1 , xn R x2 , xn R xn , xn
R x1 , x1 R x1 , x2 R x2 , x1 R x2 , x2 R xn , x1 R xn , x2
T dan S x1 x2 xn
1 x1 1 x2 2 x1 2 x2 m x1 m x2
1 xn 2 x n m xn
Untuk mengestimasi c dan d pada (7) digunakan metode Newton-Raphson (Wang, 1996). Berikut diuraikan metode Newton-Raphson:
I c , d Q u n Q c c
I c , d ST u d
2 I c, d
2 I c, d
T
c c 2 I c, d cT d
T
Q WQ nQ
T
d d
ST W S
2 I c, d QW S dT c
ST WQT
Newton-Raphson memenuhi sistem linear berikut:
2 I c, d T c c 2 I c, d cT d
2 I c, d I c, d c c T d c c 0 2 I c, d d d 0 I c, d d dT d
Q W0 QT nQ ST W0 QT
Q W0 S c c0 Q u 0 n Q c 0 ST u 0 ST W0 S d d 0
(8)
persamaan (8), dapat dituliskan sebagai berikut: Jurusan Statistika-FMIPA-Unpad 2011
239
PROSIDING Seminar Nasional Statistika | 12 November 2011
c c0 Q W0 QT nQ ST W0 QT d d 0
ISSN : 2087-5290. Vol 2, November 2011
1
Q W0 S Q u0 nQ c0 S T u 0 ST W0 S
(9)
dari persamaan (9), akan dicari vektor c dan d . Vektor c0 dan d0 adalah vektor perkiraan awal. Apabila elemen dari vektor c c0 dan d d0 lebih besar dari nilai toleransi, maka iterasi newton raphson diteruskan, sampai diperoleh elemen vektor c c0 dan d d0 lebih kecil dari nilai toleransi. Selanjutnya estimator spline untuk fungsi variansi dituliskan sebagai berikut:
fˆ x S d Qc
dengan fˆ x fˆ x1 , fˆ x2 ,, fˆ xn
(10)
T
.
3. METODE UNBIASED RISK (UBR) DAN METODE GENERALIZED CROSS VALIDATION (GCV) UNTUK MEMILIH PARAMETER PENGHALUS 3.1. Metode Unbiased Risk (UBR) Metode UBR merupakan salah satu metode yang digunakan untuk memperoleh estimasi parameter penghalus untuk fungsi variansi. Metode ini merupakan hasil estimasi tak bias pada fungsi resiko. Diberikan fungsi kerugian kuadrat terbobot sebagai berikut:
U
1 n 2 wi f ( xi ) f ( xi ) n i 1
Akan dicari nilai yang meminimumkan fungsi kerugian kuadrat terbobot U . Dalam permasalahan nonparametrik dengan pendekatan spline, nilai U tidak dapat dihitung secara langsung, karena U masih memuat fungsi f yang tidak diketahui. sehingga dibutuhkan fungsi resiko terbobot yang merupakan hasil ekspektasi dari U . Diuraikan sebagai berikut:
1 n 2 E U E wi f ( xi ) f ( xi ) n i 1
1 E n
1 1 W 2 I - A f n
A z - f
T
W A z - f T
W
Jurusan Statistika-FMIPA-Unpad 2011
1
2
1
I - A f n
T
trace A W A W -1
240
PROSIDING Seminar Nasional Statistika | 12 November 2011
2
1 1 W 2 I - A f n
+
ISSN : 2087-5290. Vol 2, November 2011
1 T trace A W A W -1 n
dari uraian diatas, diperoleh fungsi resiko kuadrat terbobot adalah:
R
2
1 1 W 2 I - A f n
+
1 T trace A W A W -1 n
(11)
selanjutnya, dibutuhkan suatu estimator tak bias untuk (11) yang disajikan pada Teorema berikut: Teorema 1.
Apabila U
2 1 1 1 T W 2 I - A z + 2 trace A W A W -1 n n
T 1 2 trace I - A W I - A W -1 n
Maka U merupakan estimator tak bias untuk R . Berdasar Teorema 1, Parameter penghalus optimal dapat diperoleh dengan meminimumkan UBR berikut:
UBR
2 1 1 1 T W 2 I A z 2 trace A W A W 1 n n
T 1 2 trace I A W I A W 1 n
3.2. Metode Generalized Cross Validation (GCV) Metode GCV adalah salah satu metode yang digunakan untuk memperoleh estimasi parameter penghalus pada fungsi variansi yang merupakan modifikasi dari metode Cross Validation (CV) (Wahba, 1990). Diberikan
z
i
n 1
titik
data
z1 , z2 ,, zi 1 , zi 1 ,, zn . Misalkan f
(data i
ke-
i
dihilangkan)
yaitu
x penyelesaian meminimumkan Penalized
Weighted Leas Square (PWLS) berikut:
1 n
n
2
1
2
w j z j f x j f m x dx j 1; j i 0
Cross Validation (CV) adalah metode untuk memilih yang meminimumkan:
CV
2 1 n wi zi f i xi n i 1
Jurusan Statistika-FMIPA-Unpad 2011
241
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
i Apabila data zi diganti dengan f xi dan dapat menyelesaikan optimasi PWLS i
berdasarkan n data baru, maka f
xi merupakan penyelesaian.
4. SIMULASI Simulasi dalam penelitian ini dilakukan untuk mengevaluasi performance (kebaikan) metode Unbiased Risk (UBR) dan metode Generalized Cross Validation (GCV) kemudian membandingkan kebaikan antara kedua metode tersebut. Realibilitas pengukuran ini berdasarkan nilai MSE terkecil yang dihasilkan pada metode UBR dan GCV. Selanjutnya, untuk dapat melaksanakan simulasi ini, digunakan data bangkitan oleh model fungsi variansi.. Fungsi variansi yang digunakan dalam simulasi adalah y ti e
f ti
dengan fungsi
f ti diberikan:
i.
Fungsi percobaan I : f1 ti 2 Sin 2vti 3 untuk i 1, 2, , n
ii .
Fungsi percobaan II : f 2 ti 1 ti 2 cos 6vti , untuk i 1, 2, , n
dengan ti
i ; perubahan v 1 dan v 3 ; parameter gamma k 1 dan k 3 ; dan n
ukuran sampel n 25 , n 50 , dan n 100 . Hasil simulasi data disajikan pada lampiran, diperoleh bahwa untuk fungsi percobaan I dan fungsi percobaan II dengan ukuran sampel n 25 , nilai MSE UBR lebih kecil dibandingkan dengan nilai MSE GCV baik untuk v 1 maupun v 3 dan juga untuk perubahan paramater gamma k 1 maupun parameter gamma k 3 , sehingga untuk ukuran sampel ini metode UBR mempunyai performance lebih baik dibandingkan metode GCV. Selanjutnya untuk ukuran sampel n 50 dan n 100 , nilai MSE GCV lebih kecil dibandingkan dengan nilai MSE UBR baik untuk perubahan v dan perubahan parameter gamma sehingga untuk ukuran sampel ini metode GCV mempunyai performance lebih baik dibandingkan metode UBR.
5. KESIMPULAN Metode yang digunakan untuk mengestimasi fungsi variansi adalah metode Estimasi Maksimum Likelihood yang terpenalized (Penalized likelihood) dengan penyelesaian estimasi menggunakan iteratif Newton-Raphson. Hasil estimasi spline untuk fungsi variansi diperoleh:
Jurusan Statistika-FMIPA-Unpad 2011
242
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
fˆ Sd Qc dengan c dan d merupakan
vektor, Q x1 x2 xn
,
dan
T
S x1 x2 xn . Pemilihan parameter penghalus optimal untuk ketidaksamaan variansi menggunakan metode Unbiased Risk (UBR) dan Generalized Cross Validation (GCV) berturutturut diberikan oleh:
UBR
2 1 1 1 W 2 Ι z 2 trace T W W 1 n n T 1 2 trace Ι Α W Ι Α W 1 dan n
W1 2 I A z 2 1 GCV 2 n 1 trace I A n Simulasi dilakukan untuk mengevaluasi performance (kebaikan) metode UBR dan GCV yang didasarkan pada nilai MSE terkecil. Hasil simulasi menujukkan bahwa untuk ukuran sampel n 25 baik untuk v 1 dan v 3 serta parameter gamma k 1 dan k 3 metode UBR lebih baik dibandingkan dengan metode GCV. Sedangkan untuk ukuran sampel n 50 dan n 100 baik untuk v 1 dan v 3 serta parameter gamma k 1 dan k 3 diperoleh metode GCV lebih baik dibandingkan dengan metode UBR dalam pemilihan parameter penghalus untuk fungsi variansi.
6. DAFTAR PUSTAKA Cui, X., Hwang, J. T. G., Qiu, J., Blades, N. J. And Churchill, G. A., (2005). “Improved statistical test for differential gene expression by shrinking variance components estimates” Biostatistics 6:59-75. Dai, M. and Guo, W. (2005). “Heteroscedastic smoothing spline models” Statistica Sinica. Eubank, R.L. (1988). Spline Smoothing and Nonparametric Regression, Marcel Deker: New York and Basel. Green, J.P dan Silverman, W.B (1995). Nonparametric Regression and Generalized Linear Models. Chapman & Hal. Hardle, W., (1990). Applied Nonparametric Regression, Cambrige University Press: New York. Huang, X. and Pan, W. (2002). “Comparing three methods for variance estimation with duplicated high density oligonucleotide arrays” Funct Integr Genomics 2: 126-133. Liu, A., Tong, T., dan Wang, Y. (2006). “Smoothing Spline Estimation of Variance Function” Department of Statistics and Applied Probability, University of California: Santa Barbara. E-mail:
[email protected] &
[email protected]. Jurusan Statistika-FMIPA-Unpad 2011
243
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Wahba, G. (1990). Spline Model For Observation Data, SIAM, Pensylvania. Wang, Y. and Guo, S. W. (2004). “Statistical methods for detecting genomic alterations through array-based comparative genomic hybridization (CGH)”. Frontiers in Bioscience 9: 540-549. Wang, Y. and Ke, C., (2002). “Nonlinear Nonparametric Regression Models”. Department of Statistics and Applied Probability, University of California: Santa Barbara. Wang, Y. (1996). “GRKPACK : Fitting Smoothing Spline Anova Models For Exponential Familes” Departement of Biostatistics, Universitas of Michigan Ann Arbor, Michigan 48109, USA. Yuan, M. and Wahba, G. (2004). “Doubly penalized likelihood estimator in heteroscedastic regression” Statistics and Probability Letters 69 : 11-20. 7. LAMPIRAN
Gambar 1. Plot Fungsi percobaan I dengan n 50 , v 3 dan k 1
Jurusan Statistika-FMIPA-Unpad 2011
244