Tesis
ESTIMASI INTERVAL SPLINE DALAM REGRESI NONPARAMETRIK
Oleh : MUHAMMAD NAFI’ (NRP.1304201018)
PROGRAM PASCASARJANA PROGRAM STUDI STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT TEKNOLOGI SEPULUH NOPEMBER SURABAYA 2010
Tesis
LATAR BELAKANG
Regresi
yi = f(xi) + εi
fˆ = ...?
Bentuk kurva diketahui
Parametrik
Nonparametrik
yi = α + β xi + ε i
yi = f(xi) + εi
- Pendekatan Kernel (Hardle,90) - Spline (Wahba, 1990; Craven & Wahba, 1979; Budiantara et al, 1997) - Deret Fourier & Wavelet (Antoniadis et al, 1994)
Spline -Model regresi yang mempunyai interprestasi satistik dan visual sangat khusus dan sangat baik -Diperoleh dari optimasi Penalized Least Square (PLS) dan memiliki fleksibilitas yang tinggi -Mampu menangani karakter data/fungsi yang mulus -Memiliki kemampuan yang sangat baik untuk menangani data yang prilakunya berubah-ubah pada sub-sub interval tertentu
Estimator
PLS (Craven & Wahba, 1979)
Interval Konfidensi
Bayesian (prior improper) (Wahba, 1983; Budiantara 200b)
RKHS (Graven & Wahba, 79) (wang, 98) Gateaux (Eubank, 88)
Bahasa matematis tinggi
Bahasa matematis tinggi
Tesis
1. Bagaimana bentuk estimator?
RUMUSAN MASALAH
2. Bagaimana Interval Konfidensi ? 3. Bagaimana aplikasi spline ?
Tesis
TUJUAN PENELITIAN
1. Mengkaji bentuk estimator Spline menggunakan Likelihood. 2. Mengkaji Konstruksi Interval Konfidensi menggunakan Pivotal Quantity. 3. Menerapkan spline pada data Berat Badan Balita di Kota Surabaya tahun 2007.
Tesis
MANFAAT PENELITIAN 1. 2.
WAWASAN KEILMUAN METODE ALTERNATIF
BATASAN MASALAH -
OPTIMASI LIKELIHOOD DATA TENTANG BERAT BADAN BALITA DI KOTA SURABAYA TAHUN 2007
Tesis
TINJAUAN PUSTAKA 1. Fungsi Spline Spline adl potongan polinomial yg punya sifat tersegmen dan kontinu shg lebih fleksibel dari polinomial biasa p
m
f ( x i ) = ∑ γ j x i + ∑ γ k + p ( x i − λ k ) +p j
j=0
k =1
2. Pemilihan Lambda Optimal Dgn GCV,
n GCV ( λ ) =
−1
^
n
∑ (y i =1
i
− f ( x i )) 2
n ⎛ ⎞ −1 ⎜ 1 − n ∑ a ii ( λ ) ⎟ i =1 ⎝ ⎠
2
Tesis
TINJAUAN PUSTAKA 3. Interval Konfidensi
P (c ≤ θ ≤ d ) = 1 − α 4. Pertumbuhan Balita
5. Berat Badan
Tesis
BAHAN DAN ALAT
1.
Jurnal dan referensi
2.
Program S-Plus 2000
3.
Data rata-rata Berat Badan Balita
Tesis
LANGKAH PENELITIAN START Mengkaji estimator kurva regresi f
Menurunkan IK kurva regresi f
Fungsi f(xi) dihampiri dengan model spline kuadrat
f ( xi ) =
2
∑γ j=0
j
x ij +
m
∑γ k =1
k+2
^
Penduga : f ( x ) = W ( x,
( x i − λ k ) +2 ^
Distribusi : Wi = Menyelesaikan optimasi Min {ε ′ε } =
γ ∈R p + m +1
λ) y
Min {( y − T [λ1 , ... , λ m ]γ )' ( y − T [λ1 , ... , λ m ]γ )}
γ ∈R p + m +1
Aplikasi pada data
A
IK :
f ( x i ) − f ( xi )
σ aii
, i =1, 2, ... , n
P ( − zα / 2 ≤ Wi ≤ zα / 2 ) = 1 − α , i = 1, 2, ... , n
Tesis
LANGKAH PENELITIAN A
Perkiraan titik knot Tentukan GCV optimal Penentuan titik knot optimal Tentukan estimator spline optimal Buat Interval Konfidensi End
Tesis
ANALISIS & PEMBAHASAN
1. Estimator Spline Untuk Kurva Regresi f
Dalam regresi nonparametrik f tidak diketahui, diasumsikan (termuat dalam ruang Sobolev) W 2p [ a , b ] = { g ; ∫ ( f
( p)
( x )) 2 dx < ∞ }
Diberikan suatu basis ruang spline :
{1, x, x 2 , ( x − λ1 ) 2+ , ... , ( x − λ m ) 2+
Model Regresi Spline dapat ditulis menjadi
yi = f (xi ) +εi 2
m
= ∑γ x +∑γ k+2 (xi −λk )+2 +εi j=0
j j i
k=1
mooth
⎧(x −λ)2, x ≥ λ (x −λ) = ⎨ , x <λ ⎩0 2 +
Tesis
ANALISIS & PEMBAHASAN
Fungsi Likelihood n 1 ⎞ ⎛ L( y, f ) = ∏⎜ (2πσ 2 ) −1/ 2 Exp(− 2 ( yi − f ( xi )) ⎟ 2σ ⎠ i =1 ⎝ 1 = (2πσ 2 ) −n / 2 Exp(− 2 ( yi − f ( xi ))2 2σ
Dengan Optimasi Likelihood diperoleh estimator: ^
f ( x, λ ) = T ( x, λ ) [ T ' ( x, λ ) T ( x, λ )]−1 T ' ( x, λ ) y
⎛1 ⎜ ⎜1 T(x, λ) =⎜ ⎜M ⎜ ⎝1
2
x1 x1
x2 x2 M
2
M
xn xn
2
(x1 − λ1 )+2 L (x1 − λm )+2 ⎞ ⎟ 2 2⎟ (x2 − λ1 )+ L (x2 − λm )+ ⎟ M O M ⎟ ⎟ (xn − λ1 )2+ L (xn − λm )2+ ⎠
y = ( y1 ,..., y n )′
Tesis
ANALISIS & PEMBAHASAN 2. Interval Konfidensi untuk kurva regresi
Setelah mencari ekspektasi dan varians dari estimator maka diperoleh Pivotal Quantity: 2
m
∑γˆ x + ∑γˆ j
U ( xi , λ1 , λ2 , ..., λm ) =
j =0
j i
k =1
k +2
( xi − λk ) +2 − f ( xi )
σ 2ωi ( xi , λ1 , λ2 ,..., λm )
Interval konfidensi 1 – α diperoleh dengan menyelesaikan persamaan 2
P( a ≤
∑ γˆ j =0
K
xi + ∑ γˆ k + 2 ( xi − λ k ) 2+ − f ( xi ) j
j
k =1
σ ω i ( xi , λ1 , λ 2 , ..., λm ) 2
≤ b) = 1 − α
Interval konfidensi 1 – α f(xi) K ⎛⎡ 2 ⎤ j P⎜ ⎢∑ γˆ j xi + ∑ γˆ k + 2 ( xi − λ k ) 2+ ⎥ − b σ 2 ω i ( xi , λ1 , λ 2 , ..., λ m ) ≤ f ( xi ) ≤ ⎜ j =0 k =1 ⎦ ⎝⎣ K ⎞ ⎡ 2 ⎤ j 2 2 ⎢∑ γˆ j xi + ∑ γˆ k + 2 ( xi − λ k ) + ⎥ − a σ ω i ( xi , λ1 , λ 2 , ..., λ m ) ⎟⎟ = 1 − α k =1 ⎣ j =0 ⎦ ⎠
Dengan a dan b memenuhi persamaan: a
α
∞
∫ ϕ (u) du = 2 = ∫ ϕ (u) du
−∞
b
3. Aplikasi Model & Interval konfidensi Spline
10 8 6 4
berat bayi
12
14
Plot data dan spline linear dengan titik knot 5 dan 8, GCV: 0.04325964
0
10
20
30 umur umur bayi bayi
40
50
10 8 6 4
berat bayi
12
14
Plot data dan spline kuadratik dengan titik knot 4, 8 dan 14 GCV: 0.02526942
0
10
20
30 umur umur bayi bayi
40
50
Model regresi Spline
^
f ( x) = 3.556999 + 0.9431169 x - 0.05900713 x 2 + 0.03508034 ( x − 4) 2+ + 0.01593129 ( x − 8) 2+ + 0.007242174( x − 14) 2+
10 8 6 4
berat bayi
12
14
Interval Konfidensi
0
10
20
30 umur bayi
40
50
Tesis
KESIMPULAN
Untuk memperoleh estimasi titik kurva regresi dalam regresi nonparametrik spline, umumnya digunakan optimasi Penalized Likelihood. Disamping itu dapat pula menggunakan optimasi Likelihood yang memberikan hasil relatif mudah. Untuk membangun interval konfidensi dalam regresi nonparametrik spline, umumnya digunakan pendekatan Bayesian. Pendekatan Pivotal Quantity juga dapat digunakan dan memberikan hasil yang relatif sederhana.
Model Spline kuadrat sangat memadai untuk digunakan menduga pola hubungan antara umur balita dan berat badan balita di Kota Surabaya.
Terimakasih