2/7/2011
Oleh : Edwin Erifiandi (NRP. 1309 201 701) Pembimbing : Prof. Dr. Drs. I Nyoman Budiantara, MSi
PENDAHULUAN Latar Belakang g ((1)) Salah satu metode statistika untuk memodelkan hubungan antar variabel adalah analisa regresi. Tiga pendekatan yang digunakan untuk mengestimasi kurva regresi: pendekatan parametrik, non parametrik, dan semiparametrik. Regresi parametrik terdapat asumsi yang sangat kaku dan kuat yaitu bentuk kurva regresi diketahui, mis linier, kuadratik, kubik, eksponen dsb. Dalam regresi parametrik kita dituntut memiliki informasi masa lalu tentang pola data.
1
2/7/2011
PENDAHULUAN Latar Belakang (2) Tidak semua pola hubungan dapat didekati dengan parametrik karena keterbatasan informasi masa lalu. Regresi nonparametrik merupakan pendekatan regresi yang sesuai untuk pola data yang tidak diketahui bentuk kurva regresinya atau tidak ada informasi masa lalu yang lengkap (Eubank, 1988 dan Budiantara, 2001) Model regresi nonparametrik yang banyak digunakan adalah Kernel, Wavelets, MARS, Deret Fourier, Spline, dsb.
PENDAHULUAN Latar Belakang g (3) Pendekatan regresi nonparametrik memiliki fleksibilitas yang tinggi karena data mencari sendiri bentuk estimasi kurva regresinya tanpa dipengaruhi subyektivitas peneliti. Dalam beberapa kasus, var respon memiliki hubungan linier dengan g salah satu var p prediktor tapi p dengan g var prediktor lainnya tidak diketahui pola hubungannya. Dalam keadaan seperti ini, Wahba (1990) menyarankan menggunakan pendekatan regresi semiparametrik.
2
2/7/2011
PENDAHULUAN Latar Belakang g (4) Model‐model regresi semiparametrik adalah Kernel, Spline, Polinomial Lokal, Deret Fourier. Eubank (1988) menyatakan diantara model‐model regresi nonparametrik dan semiparametrik, Spline merupakan salah satu model yang mempunyai interpretasi statistik dan visual sangat baik dan khusus. Spline S li memiliki iliki kemampuan k sangat baik b ik menanganii data d yang perilakunya berubah‐ubah pada sub‐sub interval tertentu (Cox dan Sullivan, 1996 dan Budiantara, 2006) Estimator Spline memiliki fleksibilitas yang tinggi (Budiantara, 2004; 2006)
PENDAHULUAN Latar Belakang (5) Sejauh ini estimator Spline dalam regresi semiparametrik yang dikembangkan oleh peneliti hanya untuk model regresi satu variabel respon. Dalam beberapa kasus pada data BPS sering ditemui kasus‐kasus dimana pengukuran variabel dilakukan pada waktu bersamaan sehingga akan melibatkan model regresi dengan variabel respon lebih dari satu dan saling berkorelasi.
3
2/7/2011
PENDAHULUAN Rumusan Masalah 1. Bagaimana mendapatkan estimator untuk parameter
komponen parametrik dan nonparametrik dalam regresi semiparametrik multirespon? 2. Bagaimana memilih titik knot optimal pada estimator spline parsial? 3. Bagaimana membuat algoritma dan program untuk estimator Spline dalam mengestimasi kurva regresi semiparametrik? 4. Bagaimana memodelkan data pada studi kasus pengeluaran konsumsi makanan dan bukan makanan di Jawa Timur Tahun 2009?
PENDAHULUAN Tujuan Penelitian 1. Mendapatkan estimator untuk parameter komponen
parametrik dan nonparametrik dalam regresi semiparametrik multirespon. 2. Memilih titik knot optimal pada estimator spline parsial. 3. Membuat algoritma dan program untuk estimator Spline dalam mengestimasi kurva regresi semiparametrik multirespon. 4 Membuat 4. M b t model d l hasil h il studi t di kasus k pengeluaran l k konsumsi i makanan dan bukan makanan di Propinsi Jawa Timur Tahun 2009
4
2/7/2011
PENDAHULUAN Manfaat Penelitian 1. Memahami dan mengerti bagaimana cara
menurunkan estimator untuk kurva regresi komponen menurunkan estimator untuk kurva regresi komponen parametrik dan nonparametrik dalam regresi semiparametrik multirespon. 2. Dapat memilih titik knot optimal pada estimator
spline parsial. 3. Dapat membuat program dan menginterpretasikan
outputnya untuk studi kasus pengeluaran makanan dan bukan makanan di Jatim Tahun 2009
PENDAHULUAN Batasan Penelitian 1.
Untuk memperoleh estimator spline parsial dalam regresi semiparametrik multirespon yang diperoleh berdasarkan optimasi Weighted Least Square (WLS).
2.
Pola variabel respon dengan variabel prediktor diasumsikan berpola parametrik linier.
3.
Kurva regresi komponen nonparametrik dihampiri dengan fungsi spline linier.
4.
Pemilihan titik knot optimal menggunakan metode GCV.
5
2/7/2011
TINJAUAN PUSTAKA Analisis Regresi banyak digunakan dalam berbagai bidang dan sangat berguna dalam berbagai penelitian. Secara penelitian Secara umum, umum Gujarati (1999) menyatakan analisis regresi berkenaan dengan studi ketergantungan variabel respon, pada satu atau lebih variabel prediktor, dengan maksud menaksir atau meramalkan variabel respon.
TINJAUAN PUSTAKA Ada 3 pendekatan dalam analisis regresi: 1. Regresi Parametrik, diasumsikan bentuk kurva regresi diketahui. Model umum regresi parametrik:
y X
2. Regresi Nonparametrik, digunakan apabila pola hubungan antara variabel respon dengan variabel prediktor tidak diketahui bentuk kurva regresinya. Model umum regresi nonparametrik (Eubank, 1988):
yi f (ti ) i , i 1,, 2,..., , ,n Dalam regresi nonparametrik kurva regresi hanya diasumsikan mulus (smooth) dalam arti termuat dalam suatu ruang fungsi tertentu sehingga mempunyai sifat fleksibilitas yang tinggi (Eubank, 1988).
6
2/7/2011
TINJAUAN PUSTAKA 3. Regresi semiparametrik merupakan gabungan antara regresii parametrik ik dan d regresii nonparametrik. Model regresi semiparametrik (Eubank, 1988) yi xi f (ti ) i , i 11, 22,..., n
Spline Polynomial Truncated Secara umum didefinisikan sbb:
f (t )
q
k t
k 1
t Kl q
k
m
l (t Kl )q l 1
t K q l 0
;tK ;tK
p parameter polinomial p p : merupakan : parameter truncated
K1, K2,…,Km adalah titik knot yaitu titik perpaduan
bersama dimana terdapat perubahan perilaku fungsi pada interval yang berlainan (Budiantara, 2006)
7
2/7/2011
Jika k=1 dan banyak knot=1 maka didapat fungsi spline
linier dengan satu knot dapat disajikan dalam bentuk:
tK t f (t ) t (t K )1 1 t (t K ) t K Dapat disajikan dalam gambar: f (t )
t
t (t K )1
tK
tK
t
K
TINJAUAN PUSTAKA Pemilihan Titik Knot Optimal Salah satu metode pemilihan titik knot optimal adalah Generalized Cross Validation (GCV) (Budiantara,2000). Titik knot optimal didapat dari nilai GCV
terkecil. Fungsi GCV didefinisikan: GCV K1 , K 2 , , K M
MSE K1 , K 2 , , K M
(n 1tr[ I A K1 , K 2 , , K M ]) 2
j 1 M
MSE K1 , K 2 , , K M n 1 y j fˆ K , K ,, K t j 1
2
M
2
A( K1 , K 2 , , K M ) T ( K1 , , K M )(T ( K1 , , K M )T ( K1 , , K M )) 1T ( K1 , , K M )
8
2/7/2011
TINJAUAN PUSTAKA Tinjauan Non Statistik: Pengeluaran Konsumsi Makanan dan Bukan Makanan. Indikator kesejahteraan terkait konsumsi adalah tingkat kemiskinan, yaitu kemampuan masyarakat dalam memenuhi kebutuhan dasar sehari‐hari. Didalam memenuhi kebutuhannya, individu atau rumahtangga memiliki perilaku konsumsi yang menggambarkan pola konsumsi rumahtangga tersebut.
TINJAUAN PUSTAKA Beberapa faktor yang mempengaruhi pola konsumsi: 1 Tipologi wilayah(desa/kota) 1. 2. Karakteristik sosial (tingkat pendidikan, jumlah ART) 3. Karakteristik ekonomi(pendapatan)
9
2/7/2011
METODOLOGI Bahan dan Alat 1. Data Susenas tahun 2009 Propinsi Jawa Timur. Timur 2. Software Matlab R2009a, SPSS 11.5 for Windows dan Minitab 15.
METODOLOGI Variabel Penelitian Variabel Respon: Y1 = Pengeluaran Pengeluaran konsumsi makanan/kapita/bln(Rp) Y2 = Pengeluaran konsumsi bkn mknan/kapita/bln(Rp) Variabel Prediktor: X1 = pendapatan/kapita/bln (Rp) X2 = persentase KRT yang berpendidikan minimal SMA X1 = jumlah ART (orang) T1 = umur kepala rumahtangga (tahun)
10
2/7/2011
Definisi Operasional: 1.
2. 3.
4 4. 5.
Pengeluaran /kapita/bulan adalah biaya yang dikeluarkan untuk konsumsi semua ART selama sebulan dibagi dengan banyaknya ART. Pendapatan per kapita dalam penelitian ini menggunakan pendekatan pengeluaran per kapita. Persentase KRT yang berijasah minimal SMA adalah banyaknya KRT yang telah menamatkan pendidikan dan memiliki ijasah SMA atau Perguruan Tinggi. Banyaknya ART adalah semua orang yang biasanya bertempat tinggal di suatu rumahtangga. Umur KRT dihitung dalam tahun pembulatan ke bawah atau umur pada waktu ulang tahun terakhir.
METODOLOGI
Langkah‐langkah Penelitian
1. Estimasi
kurva regresi komponen parametrik dan nonparametrik
a. Menyajikan model regresi semiparametrik multirespon:
yki xki p f k (ti ) ki ,
k 11,2, 2 , r , i 1,2, 1 2 , n
b. Kurva regresi dihampiri dengan fungsi spline parsial truncated .
S (ti )
s
m
h 1
d 1
khtkih kd (tki K kd )h
c. Membuat model regresi semiparametrik multirespon dalam b t k t ik bentuk matrik.
y Z ( x, t )
d. Menentukan matrik bobot variance‐covariance e. Mencari estimasi parameter dgn menyelesaikan optimasi WLS e. Menyelesaikan optimasi WLS (Weighted Least Square)
11
2/7/2011
METODOLOGI 2. Untuk memperoleh titik knot optimal pada estimator spline diperlukan langkah sebagai berikut: a. Mendefinisikan nilai
MSE[ K1, , K r ]
b. Mendapatkan matrik
A[ K1, , K r ]
c. Mencari titik knot optimal yang meminimumkan fungsi GCV
METODOLOGI 3. Membuat algoritma dan program komputer untuk menyelesaikan tujuan: a. Mendapatkan estimator spline dalam regresi semiparametrik multirespon Merancang model regresi semiparametrik multirespon Mendapatkan matrik pembobot variance covariance Menampilkan M ilk estimator spline ti t li berdasarkan b d k penghitungan.
12
2/7/2011
METODOLOGI b. Algoritma memilih titik knot optimal
pada estimator spline: Tentukan jumlah titik knot Lakukan penghitungan semua GCV untuk
mendapatkan titik knot optimal. Tentukan nilai GCV terkecil dan titik knot optimal.
METODOLOGI 4. Memodelkan data pengeluaran konsumsi makanan dan bukan makanan dari output program sbb: a. Membuat plot data antara var respon dan prediktor b. Memodelkan var prediktor komponen nonparametrik dengan var respon menggunakan spline truncated c. Menerjemahkan nilai GCV dan titik knot d. Mengambil g kesimpulan p titik knot optimal. p e. Mengambil kesimpulan model estimasi spline untuk mengestimasi kurva regresi semiparametrikmultirespon
13
2/7/2011
HASIL DAN PEMBAHASAN 1. ESTIMASI MODEL SPLINE LINIER DALAM REGRESI SEMIPARAMETRIK
, t , y mengikuti Hubungan g antara xki g model regresi g ki ki semiparametrik: yki xki k f k (ti ) ki , k 1, 2,, r , i 1, 2, nk Fungsi f didekati dgn fungsi spline linier dg m titik knot sehingga model regresi semiparametrik dpt ditulis:
s yki k 0 k1 X1i kpp X ppi k1tki kstki
k1(tki K k1)s km (tki K km )s ki
Model semiparametrik dapat ditulis dalam bentuk
matrik sbb:
y1 Z1 0 1 1 0 Z y r r r r y Z Nx1 Nx(rp rs rm)(rp rs rm) x1 Nx1 r
r
k 1
k 1
Kemudian matrik variance covariance berukuran nk x nk W ( 2 ) W ( ) W ( ) 1 1 12 1r 2 W ( 21) W2 ( 2 ) W ( 2r ) [W ( 2 )]1 2 W ( r1) W ( r 2 ) Wr ( r )
14
2/7/2011
Estimasi parameter model diperoleh dengan metode
Weighted Least Square Min ( W ) Min ( rp rs rm )
( rp rs rm )
y Z [ K1 , , K r ] W y Z [ K1 , , K r ]
Setelah S l h diturunkan di k terhadap h d beta dan b d hasilnya h il
disamakan dengan nol, didapatkan hasil Z K1,, K r WZ K1,, K r ˆ Z K1,, K r Wy 1 ˆ Z K1,, K r WZ K1,, K r Z K1,, K r Wy Estimasi E i i untuk k kurva k regresii fˆ ( X , t ) Z K1 , , K r ˆ 1 Z K1 , , K r Z K1 , , K r WZ K1 , , K r Z K1 , , K r Wy A K1 , , K r y
Titik Knot Optimal diperoleh N 1 y fˆ ( X , t ) y fˆ ( X , t ) Min Min GCV [ K1,, K r ] K R,, K R K R,, K R 1trace I A[ K , , K ] 2 N r 1 1 N y I A[ K1,, K r ] I A[ K1, , K r ] y Min 2 K R,, K R 1 N trace I A[ K1,, K r ] 1
r
1
1
r
r
15
2/7/2011
Deskripsi Pengeluaran Konsumsi Makanan(Y1) dan Bukan Makanan(Y2) dengan variabel Prediktor Scatter plot pendapatan per kapita terhadap
pengeluaran makanan 325000
Pengeluara an Makanan (Rp)
300000 275000 250000 225000 200000 175000 150000 300000
400000
500000
600000
700000
Pendapatan per Kapita (Rp)
Scatter plot pendapatan per kapita terhadap
pengeluaran bukan makanan
Pengeluaran Bukan Makanan (Rp)
400000 350000 300000 250000 200000 150000 100000 300000
400000 500000 600000 Pendapatan per Kapita (Rp)
700000
16
2/7/2011
Scatter plot Persentase KRT berpendidikan minimal
SMA terhadap Pengeluaran Konsumsi Makanan 325000
Pen ngeluaran Makanan (Rp)
300000 275000 250000 225000 200000 175000 150000 0
10 20 30 40 50 Persentase KRT Berpendidikan minimal SMA (%)
60
Scatter plot Persentase KRT berpendidikan minimal
SMA terhadap Pengeluaran Konsumsi Bukan Makanan
Pengelu uaran Bukan Makanan (Rp)
400000 350000 300000 250000 200000 150000 100000 0
10
20
30
40
50
60
Persentase KRT Berpendidikan minimal SMA (%)
17
2/7/2011
Scatter plot Persentase KRT berpendidikan minimal
SMA terhadap Pengeluaran Konsumsi Bukan Makanan
Pengelu uaran Bukan Makanan (Rp)
400000 350000 300000 250000 200000 150000 100000 0
10
20
30
40
50
60
Persentase KRT Berpendidikan minimal SMA (%)
Scatter plot Jumlah Anggota Rumahtangga terhadap
Pengeluaran Konsumsi Makanan 325000
Peng geluaran Makanan (Rp)
300000 275000 250000 225000 200000 175000 150000 2
3 Jumlah Anggota Rumahtangga
4
18
2/7/2011
Scatter plot Jumlah Anggota Rumahtangga terhadap
Pengeluaran Konsumsi Bukan Makanan
Pengelu uaran Bukan Makanan (Rp)
400000 350000 300000 250000 200000 150000 100000 2
3 Jumlah Anggota Rumahtangga
4
Scatter plot Umur Kepala Rumahtangga terhadap
Pengeluaran Konsumsi Makanan 325000
Penge eluaran Makanan (Rp)
300000 275000 250000 225000 200000 175000 150000 35
40 45 50 Umur Kepala Rumahtangga (tahun)
55
60
19
2/7/2011
Scatter plot Umur Kepala Rumahtangga terhadap
Pengeluaran Konsumsi Bukan Makanan
Pengeluaran Bukan Makanan (Rp)
400000 350000 300000 250000 200000 150000 100000 35
40
45
50
55
60
Umur Kepala Rumahtangga (tahun)
Spline Univariabel Variabel Prediktor Komponen
Nonparametrik dan Variabel Multirespon Spline Linier 1,2, dan 3 Knot No Knot Respon 1
Knot Respon 2
Nilai GCV
1.
41
43
4294290404.89
2.
35
36
4517377813.26
3.
36
38
4484276889.60
4.
43
41
4342611140.04
5.
48
42
4587311365.99
20
2/7/2011
Spline Linier 2 Knot
p 1 No Knot Respon
p 2 Knot Respon
Nilai GCV
1.
K1=35, K2=36
K1=35, K2=36
4791068131.76
2.
K1=34, K2=35
K1=34, K2=39
4790471147.48
3.
K1=40, K2=57
K1=45, K2=46
4411903568.08
4 4.
K1=35, 35 K2=46 46
K1=38, 38 K2=41 41
4912006737 33 4912006737.33
5.
K1=40, K2=42
K1=36, K2=41
4800568323.77
Spline Linier 3 Knot No
Knot Respon 1
Knot Respon 2
Nilai GCV
1.
K1=39, K2=42, K3=47
K1=38, K2=51, K3=54
5075676285.00
2.
K1=40, K2=42, K3=45
K1=36, K2=41, K3=46
5088090326.22
3.
K1=36, K2=38, K3=40
K1=34, K2=36, K3=37
5098309695.42
4 4.
K1=40, 40 K2=41, 41 K3=42 42
K1=37, 37 K2=40, 40 K3=43 43
4975442262 71 4975442262.71
5.
K1=41, K2=56, K3=57
K1=45, K2=46, K3=56
4511383946.58
21
2/7/2011
Estimasi model spline linier multirespon dengan knot pada t1=41 dan t2=43
Parameter
Estimasi
1 1
ˆ1 5483.52 ˆ1 6998.03 ˆ2 4631.57
2 2
ˆ2 5762.85
Kurva spline linier untuk respon 1 5
3.4
Plot estimasi spline linear satu titik knot
x 10
3.2
Pengeluaran Makanan
3 2.8 2.6 2.4 2.2 2 1.8 1.6 1.4 30
35
40 45 50 Umur Kepala Rumah Tangga
55
60
22
2/7/2011
Kurva spline linier untuk respon 2 5
4.5
Plot estimasi spline linear satu titik knot
x 10
P engeluaran Bukan M akanan
4
3.5
3
2.5
2
1.5
1 30
35
40 45 50 Umur Kepala Rumah Tangga
55
60
Pemilihan Model Spline Multirespon Terbaik
No
Model Spline Multirespon
Nilai GCV
Keterangan
1.
Model knot optimal 1 knot
3267327848.39
Spline linier 1 titik knot
2.
Model knot optimal 2 knot
2435602885.97
Spline linier 2 titik knot
3 3.
M d l knot Model k optimal i l 3 knot k
2635548070 05 2635548070.05
S li linier Spline li i 3 titik i ik knot k
23
2/7/2011
Estimasi Model Spline Multirespon Terbaik 1927551.25 0.00221pdptn+7.23didik 103.44art makan 50537.05umur 50557.48 umur 34 53.98 umur 48 1
1
bkn _ mkn 46471.78 0.38440 pdptn 430.39didik 4834.48art 346.29umur 7807.01 umur 54 +14396.19 umur 56 1
1
KESIMPULAN Berdasarkan hasil dari penelitian yang telah dilakukan dapat diambil kesimpulan sebagai berikut: 1. Estimator komponen parametrik dan nonparametrik 1 Z K1, , K r WZ K1, , K r Z K1, , K r Wy
dengan dimana
ˆ (ˆ1, ˆ2,, ˆr )
ˆk (ˆk 1 ˆkp ˆk1 ˆks ˆk 1 ˆkm ), ) k 11, , r.
24
2/7/2011
Estimator kurva regresi semiparametrik fˆ(X,t) Z K1,,Kr ˆ 1 Z K1,,Kr Z K1,,Kr WZ K1,,Kr Z K1,,Kr Wy A K1,,Kr y
GCV minimum diperoleh dari fungsi GCV K1,, K r K1RMin ,,Kr R K1R,,Kr R Min
N1y I A K1,, Kr I A K1,, Kr y 2 N1trace I A K1,, Kr
25
2/7/2011
Berdasarkan nilai GCV minimum didapatkan model spline dalam regresi semiparametrik multirespon sebagai berikut: a. Model pengeluaran konsumsi makanan yang terbentuk dengan menggunakan model terbaik adalah sebagai berikut: 1927551.25 0.00221pdptn+7.23didik 103.44art makan 50537.05umur 50557.48 umur 34 53.98 umur 48 1
1
b. Model pengeluaran konsumsi bukan makanan yang terbentuk dengan menggunakan model terbaik adalah sebagai berikut: bkn bk _ mkn k 46471.78 4647178 00.38440 38440 pdptn d t 430 430.39 39didik 483448 4834.48artt 346.29umur 7807.01 umur 54 +14396.19 umur 56 1
1
26
2/7/2011
TERIMA KASIH
27