SEMINAR NASIONAL MATEMATIKA DAN PENDIDIKAN MATEMATIKA UNY 2016 S - 10
Informasi Fisher pada Algoritme Fisher Scoring untuk Estimasi Parameter Model Regresi Logistik Ordinal Terboboti Geografis (RLOTG) Aulia Nugrahani Putri, Dewi Retno Sari Saputro, Purnami Widyaningsih Program Studi Matematika (FMIPA, Universitas Sebelas Maret (UNS))
[email protected]
Abstrak—Model RLOTG merupakan gabungan model regresi logistik ordinal dan model RTG. Estimasi parameter model RLOTG dilakukan dengan metode maksimum likelihood. Namun estimasi parameter dengan metode tersebut ditemui kendala yaitu suatu sistem persamaan nonlinear yang sulit ditentukan penyelesaiannya. Oleh karena itu penyelesaiannya ditentukan secara numerik. Pendekatan numerik yang biasa digunakan adalah algoritme Newton-Raphson (NR). Namun algoritme tersebut memiliki kelemahan yaitu matriks Hessian-nya selalu menggunakan turunan kedua pada setiap iterasinya. Hal itu menyebabkan hasil iterasinya tidak selalu konvergen. Berdasarkan hal tersebut, algoritme NR dimodifikasi menggantikan matriks Hessiannya menjadi matriks informasi Fisher yang selanjutnya algoritme tersebut disebut algoritme Fisher scoring. Tujuan penelitian ini untuk menguraikan informasi Fisher pada algoritme Fisher scoring dan melakukan estimasi parameter model RLOTG dengan algoritme Fisher scoring. Hasil estimasi parameter model RLOTG dengan algoritme Fisher scoring adalah dengan . Kata kunci: informasi Fisher, Fisher scoring, estimasi parameter, model RLOTG
I.
PENDAHULUAN
Dalam model-model nondeterministik, untuk mengetahui hubungan antara dua atau lebih variabel digunakan model regresi. Variabel tersebut adalah variabel prediktor dan variabel respon. Variabel respon dapat bertipe kuantitatif atau kualitatif. Kualitatif atau yang disebut kategorik merupakan hasil pengukuran dari suatu variabel yang berupa dua atau lebih kemungkinan nilai (kategori). Referensi [1] menyatakan bahwa jika hanya terdapat dua kategori variabel respon, maka variabel respon tersebut bersifat biner atau dikotomus dan yang memiliki lebih dari dua kategori, maka variabel respon tersebut bersifat polikotomus. Model regresi dengan variabel respon bertipe kategorik dan variabel prediktor bertipe kategorik dan/atau kuantitatif disebut model regresi logistik. Model regresi logistik merepresentasikan peluang kejadian suatu peristiwa yang diakibatkan oleh variabel prediktor. Terdapat dua tipe model regresi logistik polikotomus yaitu regresi logistik ordinal dan regresi logistik nominal. Regresi logistik ordinal memiliki urutan pada variabel respon, sedangkan regresi logistik nominal tidak memiliki urutan pada variabel responnya seperti pada [2]. Model regresi yang merepresentasikan hubungan antara variabel respon dengan variabel prediktor yang mempertimbangkan lokasi geografis merupakan model regresi terboboti geografis (RTG). Model regresi logistik telah dikembangkan untuk merepresentasikan hubungan antara variabel respon dengan variabel prediktor yang mempertimbangkan lokasi geografis dimana data diamati. Referensi [3], model yang dimaksud adalah regresi logistik terboboti geografis (RLTG). Model RLTG ini dapat dikembangkan untuk variabel respon yang memiliki skala ordinal oleh [4], yaitu model regresi logistik ordinal terboboti geografis (RLOTG). Model RLOTG merupakan gabungan model regresi logistik ordinal dan model RTG. Pada model RLOTG terdapat variabel respon, variabel prediktor, dan parameter. Parameter pada model tersebut belum diketahui sehingga dilakukan estimasi berdasarkan sampel untuk memperoleh nilai parameter. Referensi [2], metode yang dapat digunakan untuk menentukan estimasi parameter model RLOTG adalah maksimum likelihood. Estimasi parameter dengan metode tersebut ditemui kendala yaitu suatu sistem persamaan nonlinear yang sulit ditentukan penyelesaiannya. Oleh karena itu penyelesaiannya ditentukan secara numerik. Algoritme Fisher scoring merupakan algoritme yang menggunakan vektor score dan matriks informasi Fisher. Selain itu merupakan modifikasi algoritme NR. Algoritme NR secara iteratif menggunakan matriks Hessian yang elemennya merupakan turunan kedua suatu fungsi likelihood. Hal ini MS 59
ISBN 978-602-73403-1-2
menyebabkan hasil iterasinya tidak selalu konvergen. Berdasarkan hal tersebut, algoritme NR dimodifikasi menggantikan matriks Hessian-nya dengan matriks informasi Fisher yang selanjutnya disebut algoritme Fisher scoring. Pada tahun 2004, [5] membandingkan keunggulan pada algoritme NR dan Fisher scoring dalam perhitungan estimasi maksimum likelihood. Pada penelitian tersebut ditunjukkan bahwa algoritme Fisher scoring lebih baik daripada algoritme NR karena algoritme Fisher scoring tetap konvergen ketika algoritme NR tidak konvergen. Pada tahun 2013, [6] menerapkan estimasi parameter dengan algoritme Fisher scoring pada model regresi logistik biner. Keunggulan menggunakan algoritme Fisher scoring adalah lebih dijamin konvergensinya daripada algoritme NR. Dengan memperhatikan hal tersebut, pada penelitian ini dikaji estimasi parameter dengan algoritme Fisher scoring pada model RLOTG dan menguraikan informasi Fisher pada algoritme Fisher scoring. II.
METODE PENELITIAN
Penelitian ini merupakan kajian teori dengan mempelajari informasi Fisher pada algoritme Fisher scoring dan algortime Fisher scoring yang dipergunakan untuk mengestimasi parameter model RLOTG. Langkah-langkah untuk mencapai tujuan penelitian adalah (1) menentukan fungsi likelihood dari fungsi densitas peluang bersama, (2) membentuk fungsi ln-likelihoodnya, (3) setelah diperoleh fungsi ln-likelihood, ditentukan penyelesaian yang memaksimumkannya, (4) pada tahapan (3) ditemui kendala yaitu sistem persamaan nonlinear yang sulit ditentukan penyelesaiannya sehingga ditentukan secara numerik dengan algoritme Fisher scoring, (5) menentukan estimasi parameter model RLOTG dengan algoritme Fisher scoring, dan (6) menguraikan informasi Fisher pada algoritme Fisher scoring. III.
HASIL DAN PEMBAHASAN
Model RLOTG merupakan gabungan model regresi logistik ordinal dan model RTG yang masingmasing parameter bergantung pada lokasi . Referensi [4], model RLOTG dengan variabel respon kategori dinyatakan sebagai
dengan dan Parameter merupakan intersep, merupakan vektor koefisien regresi untuk lokasi ke- yang berukuran , adalah vektor variabel prediktor untuk lokasi ke- yang berukuran , dan adalah titik koordinat (latitude, longitude) untuk lokasi ke- . Pada penelitian ini, diperhatikan sampel pengamatan (variabel respon) yang memiliki kategori dan memiliki peluang kategori terhadap adalah dengan Karena variabel respon memiliki kategori (berdistribusi multinomial), fungsi likelihood-nya dinyatakan sebagai fungsi densitas peluang bersama dari distribusi multinomial. Fungsi densitas peluang multinomial dinyatakan sebagai
sehingga diperoleh fungsi likelihood n sampel pengamatan yaitu
MS 60
SEMINAR NASIONAL MATEMATIKA DAN PENDIDIKAN MATEMATIKA UNY 2016
Fungsi likelihood merupakan fungsi eksponensial sehingga untuk memudahkan perhitungan, fungsi likelihood diubah ke dalam fungsi ln−likelihood. Pada analisis spasial, untuk mengetahui kedekatan antara lokasi satu dengan yang lain diperlukan suatu pembobot sehingga pembobot diberikan pada bentuk ln-likelihood. Jika pembobot untuk setiap lokasi adalah , maka fungsi ln-likelihood terboboti dinyatakan sebagai
Pembobot
adalah pembobot kernel fixed Gaussian yang dinyatakan sebagai
dengan
adalah jarak antara lokasi
dan lokasi
,
adalah
bandwidth (ukuran ketetanggan). Metode yang digunakan untuk memperoleh h optimum adalah metode cross validation (CV), yang dinyatakan sebagai
dengan adalah variabel respon dimana pengamatan di lokasi dihilangkan dari proses penaksiran dan adalah nilai estimasi peluang pengamatan di lokasi yang memiliki kategori K. Untuk memperoleh nilai h yang optimum maka diperoleh dari h yang menghasilkan nilai CV yang minimum. Untuk memperoleh nilai parameter yang memaksimumkan fungsi ln-likelihood dapat ditentukan dengan menghitung turunan pertama fungsi ln-likelihood terhadap masing-masing parameter, yaitu
(1)
dengan
,
,
. MS 61
dan
ISBN 978-602-73403-1-2
Selain itu untuk memaksimumkan fungsi ln-likelihood ditentukan turunan kedua fungsi ln-likelihood yang bernilai negatif. Turunan kedua fungsi ln-likelihood bernilai negatif apabila nilai turunan kedua fungsi ln-likelihood bernilai < 0. Sistem (1) merupakan sistem persamaan nonlinear. Nilai parameter model RLOTG dapat ditentukan dari penyelesaian (1). Penyelesaian eksak (1) sulit ditentukan sehingga ditentukan secara numerik dengan algoritme Fisher scoring. Estimasi parameter model RLOTG dengan algoritme Fisher scoring membutuhkan vektor score dan matriks informasi Fisher. Vektor score merupakan vektor yang elemennya turunan pertama fungsi lnlikelihood terhadap masing-masing parameter yaitu
Matriks informasi Fisher merupakan modifikasi algoritme NR yang menggantikan matriks Hessiannya. Matriks Hessian merupakan matriks yang elemen-elemennya terdiri atas turunan kedua fungsi lnlikelihood terhadap masing-masing parameter yang dinyatakan sebagai
Penggunaan matriks Hessian pada algoritme NR memiliki kelemahan yaitu tidak selalu konvergen hasil iterasinya sehingga matriks Hessian tersebut dimodifikasi dengan matriks informasi Fisher. Matriks informasi Fisher merupakan matriks yang elemen-elemennya terdiri atas nilai harapan dari turunan kedua fungsi ln-likelihood terhadap masing-masing parameter yang dinyatakan sebagai
Konsep modifikasi tersebut disebut sebagai informasi Fisher yang selanjutnya algoritme disebut sebagai algoritme Fisher scoring.
MS 62
SEMINAR NASIONAL MATEMATIKA DAN PENDIDIKAN MATEMATIKA UNY 2016
Berikut adalah algoritme Fisher scoring. (1) Menentukan nilai awal (m=0) vektor parameter model regresi logistik ordinal. (2) Menghitung parameter dengan (3) Menghitung norm
yang diperoleh dari nilai estimasi parameter
. dengan .
digunakan untuk menghentikan iterasi dengan kriteria toleransi eror. Jika kriteria dipenuhi, maka proses iterasi berhenti dan nilai estimasi parameternya adalah Sebaliknya, jika toleransi eror, maka proses iterasi diulang ke langkah (2) sampai dengan (3). Setelah nilai estimasi parameter diperoleh, model RLOTG-nya dinyatakan sebagai
IV.
SIMPULAN DAN SARAN
(1) Hasil estimasi parameter model RLOTG dengan algoritme Fisher scoring adalah
dengan dan diberikan nilai awal yang diperoleh dari nilai estimasi parameter model regresi logistik ordinal sehingga model RLOTG-nya dinyatakan sebagai dengan (2) Penguraian informasi Fisher melalui modifikasi algoritme NR. Informasi Fisher dituliskan dalam bentuk matriks yang disebut matriks informasi Fisher. Matriks informasi Fisher merupakan modifikasi algoritme NR yang menggantikan matriks Hessian-nya. Matriks informasi Fisher tersebut merupakan matriks yang elemen-elemennya terdiri atas nilai harapan dari turunan kedua fungsi lnlikelihood terhadap masing-masing parameter yang dinyatakan sebagai
Pada penelitian ini, estimasi parameter model RLOTG menggunakan algoritme Fisher scoring. Sedangkan algoritme untuk mengestimasi parameter tidak hanya dengan algoritme Fisher scoring sehingga bagi pembaca yang tertarik dengan topik ini dapat dikembangkan dengan algoritme yang lain.
MS 63
ISBN 978-602-73403-1-2
DAFTAR PUSTAKA [1] [2] [3]
[4] [5] [6]
McCullagh, P. and J. A. Nelder, “Generalized Linear Models,” second ed., Chapman and Hall, 1983. Hosmer, D. W. and S. Lemeshow, “Applied Logistic Regression,” John Wiley and Sons, Inc., USA, 2000. Atkinson, P. M., S. E. German, D. A. sear, and M. J. Clark, “Exploring the Relations Between Riverbank Erison and Geomorphological Control Using Geographically Weighted Logistic Regression,” Ohio: Ohio State University, vol. 35, pp. 58-82, 2003. Purhadi, M. Rifada, and P. Wulandari, “Geographically Weighted Ordinal Logistic Regression Model,” International Journal of Mathematics and Computation, vol. 16, pp. 116-216, 2012. Schworer, A. and P. Hovey, “Newton Raphson versus Fisher Scoring Algorithms in Calculating Maximum Likelihood Estimates,” Dayton, 2004. Marius, O. U. and O. I. C. Anaene, “Estimating the Fisher’s Scoring Matrix Formula from Logistic Model,” American Journal of Theoretical and Applied Statistics,” vol. 2, pp. 221-227, 2013.
MS 64