MODEL REGRESI SEMI PARAMETRIK DENGAN ESTIMATOR SPLINE PARSIAL Aplikasi Pada Faktor Yang Mempengaruhi Prestasi Belajar (Nilai Praktek) Mahasiswa Sekolah Tinggi Ilmu Kesehatan William Booth Surabaya Erika Untari Dewi,SKep,Ns Email :
[email protected]
ABSTRACT Practical value is one indicator of the quality improvement of health education, especially in terms of nursing care competency which is currently the society demands. Variables that affect value practice are theory, IQ value , test entrance scores, income of parent and direction of Senior High School used as predictor variables. Regression analysis can be done through two approaches, the most common approach and is often used was the parametric approach which assumes that the regression function shape was known and if there is no any information about the regression function shape of the approach used a nonparametric approach. If both approaches are combined is formed semiparametric approach. Semiparametric regression estimation technique used Spline, because Spline has the advantage because to overcome that showed pattern behavioral changes in a particular sub with knot points. The purpose of this study was to examine the spline semiparametric estimator multivariable regression model using least squares and choose the best spline regression models with Generalized Cross Validation criterion (GCV) and the Mean Square Error (MSE) and application to Practical value help program S-Plus. The data used are the average data value student practice William Booth Surabaya Collage of health science against the average value of the theory, the IQ value, entrance test scores, parental income and direction of Senior High School The results showed that the best regression model was a spline regression multivariable model spline knot point mixed, with minimum GCV, 4.946838, MSE 4.405518. and determination coefficient (R2) 0.6444852. Keywords: Generalized Cross Validation (GCV), Least Error (MSE), semiparametric regression, Spline, Knot Point.
Square,
Mean
Square
1. Pendahuluan Analisis Regresi merupakan bentuk analisis hubungan antara variabel prediktor atau Independen atau variabel bebas dengan variabel outcome atau dependen atau terikat untuk mengetahui bentuk hubungan variabel-variabel tersebut (Yasril, dkk., 2009). Dalam analisis regresi terdapat tiga pendekatan yang digunakan untuk mengestimasi kurva regresi, yaitu pendekatan regresi parametrik, regresi semiparametrik dan regresi nonparametrik. Apabila dalam analisis regresi bentuk kurva regresi diketahui maka pendekatan model regresi tersebut disebut model regresi parametrik (Hardle,1990 dan Budiantara, 2006). Beberapa kasus, variabel respon dapat memiliki hubungan linear dengan salah satu variabel prediktor, tetapi dengan variabel prediktor yang lain tidak diketahui bentuk pola hubungannya. Dalam keadaan seperti ini, Wahba, (1990) menyarankan penggunaan pendekatan regresi semiparametrik. Apabila bagian parametriknya dapat dipolakan linier, maka regresi semiparametrik ini disebut regresi linier parsial. Beberapa model regresi semiparametrik yang populer adalah regresi semiparametrik Kernel, Spline, Polinomial Lokal, Deret Fourier, dan yang lainnya. Eubank (1988) menyatakan di antara model regresi nonparametrik dan semiparametrik di atas, spline merupakan salah satu model yang mempunyai interpretasi statistik dan interpretasi visual sangat khusus dan sangat baik. Untuk mengestimasi basis fungsi Spline dapat digunakan metode least-squares spline. Estimator spline diperoleh dari suatu optimasi penalized least square (PLS) dan memiliki fleksibilitas yang tinggi (Budiantara, 2005). Di samping spline mampu menangani karakter data/fungsi yang bersifat mulus (smooth), spline juga memiliki kemampuan yang sangat baik untuk menangani data yang perilakunya berubah-ubah pada sub-sub interval tertentu (Cox dan O’Sullivan, 1996 dan Budiantara, 2006). Untuk mengetahui bentuk kurva regresinya maka dilakukan scatter plot terhadap variabel-variabel yang diasumsikan mempengaruhi prestasi belajar dalam hal ini nilai yang digunakan adalah nilai praktek mahasiswa STIKES William Booth Surabaya, dari kelima variabel yang mempengaruhi nilai praktek yaitu nilai IQ, nilai ujian masuk, penghasilan orang tua, penjurusan SMA dan nilai teori tersebut terdapat variabel yang kurva regresinya cenderung membentuk suatu pola tertentu dan terdapat pula variabel lain yang bentuk kurva regresinya tidak diketahui, sehingga untuk mengatasi kasus seperti ini, digunakan pendekatan regresi semiparametrik
yang merupakan gabungan antara regresi parametrik dan regresi nonparametrik, oleh karena itu, dalam penelitian ini akan dibahas estimator spline parsial dalam regresi semiparametrik dan terapannya untuk menduga nilai praktek mahasiswa STIKES William Booth Surabaya.
2 Metode Penelitian Rancang bangun penelitian ini pemodelan regresi semiparametrik spline, adalah salah satu jenis piecewise polynomial, yaitu polynomial yang memiliki sifat tersegmen. Data yang digunakan adalah data sekunder yang diambil dari data bagian evaluasi STIKES William Booth Surabaya. Variabel yang digunakan dalam penelitian ini adalah: 1.Variabel Respon y : ratarata nilai praktek pada mata ajar Keperawatan Medikal Bedah IV, Keperawatan Jiwa dan Keperawatan Komunitas pada semester V.2.Variabel prediktornya adalah merupakan variabel – variabel yang diasumsikan mempengaruhi Nilai Praktek, diantaranya sebagai berikut: a. t1 = Nilai Kecerdasan / Intelligence Quatient (IQ) b. t2 = Nilai Ujian Masuk STIKES William Booth Surabaya c. t3 = Penghasilan orang tua d. t4 = Penjurusan SMA. e.X : rata-rata nilai teori dari mata ajar Keperawatan Medikal Bedah IV, Keperawatan Jiwa dan Keperawatan Komunitas pada semester V. Pengolahan dan Analisis Data melalui Mengkaji bentuk estimator model Semiparametrik dengan menggunakan pendekatan spline, Membuat perkiraan jumlah dan letak titik knot, tentukan nilai GCV terkecil dan titik knot optimal kemudian mengintrepretasi model. 3. Hasil Penelitian 3.1 Aplikasi model data pada faktor yang mempengaruhi nilai praktek berdasarkan scatter plot data
3.1.1 Intelegensi (IQ) dengan nilai praktek 3.1.4 Penjurusan SMA dengan nilai praktek
Scatterplot of nilai praktek vs IQ
Scatterplot of nilai praktek vs penjurusan
82 82
80
nilai praktek
nilai praktek
80
78 76 74
78 76 74
72
72
70
70
80
90
100
110
120
1.0
130
1.2
1.4 1.6 penjurusan
IQ
Gambar 3.1 Scatterplot antara IQ dan nilai praktek Berdasarkan gambar 3.1 dapat diketahui bahwa scatterplot antara IQ dan nilai praktek tidak menunjukkan kecenderungan pola tertentu 3.1.2 Nilai masuk dengan nilai praktek
2.0
Gambar 3.4 Scatterplot antara penjurusan SMA dengan nilai praktek Berdasarkan gambar 3.4 dapat diketahui bahwa scatterplot antara penjurusan SMA dan nilai praktek tidak menunjukkan kecenderungan pola tertentu 3.1.5 Nilai teori dengan nilai praktek Scatterplot of nilai praktek vs nilai teori
Scatterplot of nilai praktek vs nilai masuk 82
82
80
80 78
nilai praktek
nilai praktek
1.8
76 74 72
78 76 74 72
70
70 10
20
30
40 nilai masuk
50
60
70
Gambar 3.2 Scatterplot antara nilai ujian masuk dan nilai praktek Berdasarkan gambar 3.2 dapat diketahui bahwa scatterplot antara nilai ujian masuk dan nilai praktek tidak menunjukkan kecenderungan pola tertentu 3.1.3 Penghasilan dengan nilai praktek
60
65
70 nilai teori
75
80
Gambar 3.5 Scatterplot antara nilai teori dan nilai praktek Berdasarkan gambar 3.5 dapat diketahui bahwa scatterplot antara nilai teori dan nilai praktek polanya cenderung jika nilai teori tinggi maka nilai praktek juga tinggi.
4. Pemilihan Model Terbaik
Scatterplot of nilai praktek vs penghasilan 82
4.1 Model terbaik nilai praktek dengan nilai teori
nilai praktek
80 78
Fitted Line Plot
nilai praktek = - 56.18 + 3.438 nilai teori - 0.02172 nilai teori**2
76
S R-Sq R-Sq(adj)
82
74
80
70 2.50
2.75
3.00
3.25 penghasilan
3.50
3.75
4.00
Gambar 3.3 Scatterplot antara penghasilan orang tua dan nilai praktek Berdasarkan gambar 3.3 dapat diketahui bahwa scatterplot antara penghasilan orang tua dan nilai praktek tidak menunjukkan kecenderungan pola tertentu.
nilai praktek
72
2.43438 45.5% 43.4%
78 76 74 72 70 60
65
70 nilai teori
75
80
Gambar 4.1 Fitted line plot kuadratik antara nilai teori dan nilai praktek
Berdasarkan diatas plot antara nilai teori dengan nilai praktek menunjukkan hubungan bahwa antara rata-rata nilai teori dan nilai praktek adalah suatu hubungan kuadratik. Dengan menggunakan metode least square diperoleh nilai Estimasi pada tabel berikut Tabel Estimasi model parametrik Parameter Estimasi -56.18 ̂ 3.438 ̂ – 0.02172 ̂ Sehingga Estimasi model tersebut adalah ̂ Pengujian model spline parametrik yang telah diperoleh diatas sebelum digunakan, akan terlebih akan terlebih dahulu dilakukan pengujian terhadap pemenuhan asumsi. Langkah pertama yang dilakukan adalah menguji apakah residual berdistribusi normal, untuk menguji asumsi tersebut digunakan uji Kolmogorov-Smirnov, dengan hipotesis H0 : Residual berdistribusi normal H1 : Residual tidak berdistribusi normal Dengan menggunakan α =0,05. Jika p value > α, maka H0 diterima, artinya residual berdistribusi normal, dan jika p value < α, maka H1 diterima artinya residual tidak berdistribusi normal. Berikut ini disajikan nilai plot dari uji kenormalan residual sebagai berikut :
Gambar 4.2 Plot normalitas residual parametrik nilai teori Berdasarkan hasil asumsi residual menunjukkan bahwa nilai statistik Kolmogorov Spirnov adalah 0,716, yang berarti lebih besar dari 0,05 maka H0 diterima berarti residual berdistribusi normal. 4.2 Model terbaik Semiparametrik Berdasarkan hasil analisis sebelumnya, yaitu analisis regresi semiparametrik menggunakan pendekatan spline linier dan kuadratik untuk satu
dan dua knot menunjukkan model yang berbedabeda dengan nilai GCV yang berbeda-beda pula. Oleh karena itu dilakukan pemilihan model terbaik berdasarkan dari nilai GCV yang paling minimum. Berikut ini hasil rangkuman pemilihan model terbaiknya
Tabel 4.1 Nilai GCV analisis multivariabel KNOT GCV Linier Satu Knot 4.946838 Dua Knot 5.150533 Kuadratik Satu Knot 5.682088 Dua Knot 5.873924 Hasil rangkuman nilai GCV untuk masing-masing model menunjukkan bahwa nilai GCV paling minimum terdapat pada model regresi semiparametrik dengan pendekatan spline linier satu titik knot. Nilai GCVnya sebesar 4.946838, sehingga dapat disimpulkan bahwa model terbaik regresi semiparametrik untuk memodelkan variabel rata-rata nilai praktek dengan variabel rata-rata nilai teori, IQ, rata-rata nilai ujian masuk, penghasilan orangtua dan penjurusan SMA adalah seperti berikut. ̂
Model regresi spline multivariable terbaik yang sudah didapat mempunyai koefisien determinan yang lebih besar (64.44%), daripada koefisien determinan model regresi multivariabel yaitu sebesar 59,5%, (hasil pada lampiran). Maka model regresi multivariable dengan koefisien determinan R² 64,44% menunjukkan bahwa variable-variabel predictor hanya mampu menjelaskan nilai praktek sebesar 64,44% dan selebihnya dijelaskan oleh variabel-variabel lain. 4.3 Pengujian Model Spline Model spline multivariable yang telah diperoleh sebelum digunakan, akan terlebih dahulu dilakukan pengujian terhadap pemenuhan asumsi. Langkah pertama yang dilakukan adalah menguji apakah residual berdistribusi normal, untuk menguji asumsi tersebut digunakan uji Kolmogorov-Smirnov, dengan hipotesis : H0 : Residual berdistribusi normal H1 : Residual tidak berdistribusi normal Dengan menggunakan α =0,05. Jika p value > α, maka H0 diterima, artinya residual berdistribusi normal, dan jika p value < α, maka H1 diterima
artinya residual tidak berdistribusi normal. Berikut ini disajikan plot dari uji kenormalan residual sebagai berikut :
Gambar 4.3 Plot Normalitas semiparametrik multivariable
Residual
Berdasarkan hasil pemeriksaan asumsi residual menunjukkan bahwa p value > α (α=0,05), nilai statistik Kolmogorov-Smirnov adalah 0,695 maka H0 diterima sehingga dapat disimpulkan bahwa residual berdistribusi normal sehingga model spline multivariabel bisa digunakan. Langkah selanjutnya adalah menguji apakah residual independent, yaitu dengan melihat plot Autocorrelation Function ACF dari residual hipotesisnya sebagai berikut : H0 : Tidak ada korelasi antara residual (independent) H1 : Ada korelasi antara residual (tidak independent)
Gambar 4.4 Plot Autocorrelation Function ACF semiparametrik multivariable Berdasarkan gambar 4.4 tampak bahwa tidak ada lag yang keluar batas, sehingga H0 diterima, dan dapat dikatakan bahwa residual saling independent sehingga model spline semiparametrik multivariable bisa digunakan. 5. Pembahasan Setelah dicobakan dengan beberapa pendekatan regresi semiparametrik multivariabel dengan model spline linier dan kuadratik, sehingga diperoleh estimasi model terbaik adalah :
̂
Melihat arti persamaan-persamaan atau beberapa model yang terpilih tersebut diatas menuntut kita untuk bijaksana dalam melihat hal ini karena apabila kita cermati untuk model spline yang lain mempuyai kesimpulan yang lebih baik walaupun nilai GCVnya lebih besar. Dalam uji nonparametrik terdapat beberapa kelemahan dibandingkan pengujian parametrik yang membutuhkan data atau sampel lebih banyak dibandingkan uji parametrik lainnya, untuk mengurangi probabilitas kesalahan jenis yang sama. Dengan demikian, bila data telah memenuhi semua asumsi model statistik parameternya, maka sebaiknya memakai uji parametrik daripada uji nonparametrik karena di samping lebih efisien, uji parametrik dapat mengetahui suatu perbedaan yang tidak diketahui dalam uji nonparametrik. Bentuk estimator spline sangat dipengaruhi oleh nilai parameter penghalus (Budihantara, 2000). Oleh karena itu, pemilihan titik knot optimal mutlak diperlukan untuk memperoleh estimator spline yang sesuai dengan data. Bentuk estimator spline juga dipengaruhi oleh lokasi dan banyaknya titik-titik knot. Eubank (1988) menyimpulkan bahwa pemilihan fungsi optimal dalam regresi spline pada hakekatnya merupakan pemilihan lokasi titik knot. Untuk nilai fungsi yang sangat besar akan menghasilkan bentuk kurva regresi yang sangat halus. Sebaliknya untuk nilai fungsi yang kecil akan memberikan bentuk kurva regresi yang sangat kasar (Wahba, 1990; Eubank, 1988; Budiantara, 1998). Analisis titik knot yang penulis sajikan sampai dengan titik knot kedua saja ternyata memberikan model yang kurang sempurna sehingga sebenarnya diperlukan analisis lebih dari dua titik knot sehingga mempunyai hasil pemodelan yang lebih baik. Model regresi spline multivariable terbaik yang sudah didapatkan mempunyai koefisien determinan yang lebih besar (64,44%), daripada koefisien determinan model regresi multivariable yaitu sebesar 59,5% ( pada lampiran ), maka model regresi spline multivariable terbaik dengan koefisien determinan R² 64,44% menunjukkan bahwa variable-variabel prediktor hanya mampu menjelaskan nilai praktek sebesar 64,44% danselebihnya dijelaskan oleh variabel-variabel lain, hanya saja dalam menentukan model regresi spline multivariabel memerlukan penghitungan
dan cara yang lebih rumit disbanding regresi multivariabel. 6. Kesimpulan dan Saran Estimasi model terbaik adalah : ̂
Pengujian model menerangkan bahwa dengan tingkat signifikansi 5% rata-rata nilai teori, ratarata nilai IQ, rata-rata nilai Ujian masuk, rata-rata penghasilan orang tua dan penjurusan SMA memberikan pengaruh yang berarti terhadap ratarata nilai praktek mahasiswa Sekolah Tingi Ilmu Kesehatan William Booth Surabaya Saran 1 Penelitian selanjutnya perlu dikembangkan jumlah sampel yang lebih banyak sehingga dapat diketahui pengaruhnya terhadap pola perubahan nilai MSE dan GCV dan perubahannya pada nilai R-Square model lebih baik dan menhasilkan pemodelan spline regresi semiparametrik yang lebih baik pula. 2 Pada penelitian selanjutnya perlu dikembangkan model spline kubik dan analisis titik knot lebih banyak sehingga memberikan analisis yang lebih rinci dan akan menghasilkan pemodelan yang lebih baik. 3 Penambahan data base seperti motivasi, kebiasaan belajar, dukungan orang tua dan lingkungan di awal mahasiswa masuk untuk dapat memprediksi pemodelan terkait dengan faktor yang mempengaruhi prestasi belajar sehingga dapat dilakukan pembinaan pada mahasiswa yang dirasa kurang.
Pada Jurusan Statistika, Fakultas MIPA, Institut Teknologi Sepuluh Nopember, ITS Press, Surabaya. Budiantara, I. N. (2006a), “Regresi Nonparametrik Dalam Statistika”, Makalah Pembicara Utama pada Seminar Nasional Matematika, Jurusan Matematika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Negeri Makasar (UNM), Makasar. Budiantara, I. N. (2005), “Model Keluarga Spline Polinomial Truncated Dalam Regresi Semiparametrik”, Makalah Seminar Nasional Matematika, Jurusan Matematika Universitas Diponegoro, Semarang. Budiantara, I. N., (2001a),” Regresi Nonparametrik dan Semiparametrik Serta Perkembangannya”, Makalah Pembicara Utama pada Seminar Nasional Alumni Pasca Sarjana Matematika Universitas Gadjah Mada, Yogyakarta. Budiantara, I. N., (2001b), “Estimasi Parametrik dan Nonparametrik untuk Pendekatan Kurva Regresi”, Makalah Pembicara Utama pada Seminar Nasional Statistika V, Jurusan Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Teknologi Sepuluh Nopember (ITS), Surabaya. Budiantara, I. N. (2000b),” Optimasi dan Proyeksi Dalam Regresi Nonparametrik Spline”, Majalah Berkala Matematika dan Ilmu Pengetahuan Alam (BMIPA), Universitas Gadjah Mada, 10, 35-44. Enggle, R.F., Grangger, C.W.J., Rice, J. and Weiss, A., (1986), Semiparametric Estimates of Relation Between Weather and Electric Sales, Journal of the American Statistical Association., 81, 310-320.
AFTAR PUSTAKA Baharudin dan Esa Nur Wahyuni. (2007). Teori Belajar dan pembelajaran, ArRuzz Media,Yogyakarta. Budiantara, I N. (2009). “Spline Dalam Regresi Nonparametrik Dan Semiparametrik: Sebuah Pemodelan Statistika Masa Kini dan Masa Mendatang”, Pidato Pengukuhan Untuk Jabatan Guru Besar Dalam Bidang Ilmu Matematika Statistika dan Probabilitas,
Eubank, R.L. (1999), Nonparametric Regression and Spline Smoothing Second Edition, Marcel Deker, New York. Lestari, B., (2008a). Spline estimator of biresponse nonparametric regression model with unequal variances of errors. J. Penelitian Math., 15: 85-93. Lestari, B., (2008b). Penalized weighted leastsquares estimator for bivariate nonparametric regression model with
correlated errors. Proceeding of the National Seminar on Mathematics and Statistics, (MS’08), Airlangga University, Surabaya, pp: 83-95. Lestari, B., I.N. Budiantara, S. Sunaryo and M. Mashuri, (2010), Spline estimator in homoscedastic Multiresponse nonparametric regression model. Proceeding of the Indo MS International Conference on Mathematics and Its Application, Oct. 12-13, Yogyakarta, Indonesia, pp: 845-854. Notoatmodjo, S. (1997). Pengantar pendidikan Kesehatan dan Ilmu Perilaku Kesehatan, Andi Offset, Yogyakarta Sunaryo, S., dan Purwahyuningsih, W. (2010), “Pendekatan Regresi Semiparametrik Spline (Pada data nilai Ujian Nasional siswa SMKN 1 Nguling Pasuruan”), Surabaya, Seminar Nasional Pascasarjana X.