IndoMS Journal on Statistics Vol.1, No. 1, (2013), Page 17-28
PERBANDINGAN METODE REGRESI LOGISTIK ORDINAL DENGAN JARINGAN SYARAF TIRUAN FUNGSI BASIS RADIAL Studi kasus: Klasifikasi Rumahtangga Miskin Kota Pasuruan Tahun 2008 Yenita Mirawanti1, Brodjol Sutijo Suprih Ulama2 1 Badan Pusat Statistik, Jakarta 2 Dosen Pascasarjana Jurusan Statistika, FMIPA-ITS, Surabaya Jurusan Statistika Kampus ITS Sukolilo, Surabaya, 60111 e-mail : 1
[email protected], 2
[email protected]
Abstract Poverty is a situation there is an inability to meet basic needs such as food, clothing, shelter, education, and health. Poverty can be caused by the scarcity of means of fulfilling the basic needs, or the difficulty to access education and employment. The purpose of this study was to group poor households based on several economic variables with ordinal logistic regression methods and artificial neural networks radial basis function approach to k-means cluster algorithm. Logistic regression is one method of regression where the response variable has a qualitative nature and have the order. Radial Basis Function Neural Network (RBF) is one form of neural network multilayer networks that can be used in case of classification. The design of the RBF neural network is a model that transforms the nonlinear input using Gaussian activation function in hidden layer before being processed in a linear fashion in the output layer. The results showed that the RBF method with k-means cluster approach provides a better level of classification accuracy than ordinal logistic regression method, with classification accuracy 67.08 percent for the RBF method with k-means cluster approach and 38 percent for ordinal logistic regression method. Keywords: Classification, Gaussian, K-mean, Logistic Regression, Poverty, RBF. Abstrak Kemiskinan adalah keadaan dimana terjadi ketidakmampuan untuk memenuhi kebutuhan dasar seperti makanan, pakaian, tempat berlindung, pendidikan, dan kesehatan. Kemiskinan dapat disebabkan oleh kelangkaan alat pemenuh kebutuhan dasar, ataupun sulitnya akses terhadap pendidikan dan pekerjaan. Tujuan dari penelitian ini adalah mengelompokkan rumahtangga miskin berdasarkan beberapa variabel ekonomi dengan metode regresi logistik ordinal dan jaringan syaraf tiruan fungsi basis radial dengan pendekatan algoritma k-mean cluster. Regresi logistik merupakan salah satu metode regresi dimana variabel responnya mempunyai sifat kualitatif dan mempunyai urutan. Jaringan Syaraf Fungsi Basis Radial (RBF)
2010 Mathematics Subject Classification: 62J02, 62M45. 17
18
Yenita Mirawanti, Brodjol Sutijo Suprih Ulama
merupakan salah satu bentuk jaringan multilayer neural network yang bisa digunakan dalam kasus klasifikasi. Desain dari RBF adalah model neural network yang mentransformasi input secara nonlinear dengan menggunakan fungsi aktivasi Gauss pada lapisan tersembunyi sebelum diproses secara linear pada lapisan output. Hasil penelitian menunjukkan bahwa metode RBF dengan pendekatan k-mean cluster memberikan tingkat ketepatan klasifikasi yang lebih baik daripada metode regresi logistik ordinal, dengan ketepatan klasifikasi sebesar 67,08 persen untuk metode RBF dengan pendekatan k-mean cluster dan 38 persen untuk metode regresi logistik ordinal. Kata Kunci: Gaussian, Kemiskinan, Klasifikasi, K-mean, RBF, Regresi Logistik. 1. Pendahuluan Salah satu indikator mengukur keberhasilan pembangunan adalah ukuran kemiskinan suatu daerah/negara. Isu tentang kemiskinan sepertinya merupakan fokus perhatian pembangunan di hampir setiap negara terutama negara-negara berkembang seperti Indonesia. Perhatian kemiskinan bahkan menjadi isu global yang terungkap secara tegas dalam sasaransasaran Pembangunan Milenium (Millenium Devepment Goal, MDGs). MDGs menetapkan penghapusan kemiskinan ekstrim dan kelaparan sebagai sasaran utama [4]. Komitmen pemerintah untuk mengentaskan kemiskinan tercantum dalam Rencana Pembangunan Jangka Menengah (RPJM) 2005-2009 yang disusun berdasarkan Strategi Nasional Penanggulangan Kemiskinan (SNPK) dan turut menandatangani Tujuan Pembangunan Milenium atau MDGs (Millenium Development Goals) untuk tahun 2015 [10]. Sekalipun sudah menjadi komitmen global, bukan berarti suatu hal yang mudah dan sederhana untuk menanggulangi kemiskinan. Penanggulangan kemiskinan dibutuhkan strategi dan kebijakan – kebijakan khusus yang berlingkup lintas sektoral dan terintegrasi. Banyak sekali penelitian tentang kemiskinan yang telah dilakukan antara lain penelitian yang dilakukan Kwon seperti dikutip Ali dan Pernia [2].Mereka menemukan hubungan antara investasi pembangunan jalan provinsi terhadap penurunan kemiskinan. Jalan provinsi berpengaruh secara langsung dalam meningkatkan upah dan kesempatan kerja untuk penduduk miskin. Studi senada di Filipina, dengan menggunakan data provinsi menunjukkan bahwa investasi pembangunan jalan jika dihubungkan dengan investasi bidang pendidikan berpengaruh secara signifikan secara langsung maupun tidak langsung terhadap kesejahteraan penduduk miskin [2]. Studi tentang klasifikasi masyarakat miskin juga pernah dilakukan antara lain oleh Hari Susanto dan Anas Saidi [9]. Dalam penelitian ini mereka hanya mengemukakan beberapa klasifikasi rumahtangga miskin menurut beberapa sumber. Klasifikasi yang dikenalkan dalam penelitian ini diantaranya adalah penduduk miskin, miskin sekali dan sangat miskin. Mengingat pentingnya data kemiskinan, penulis ingin memberikan alternatif klasifikasi rumahtangga miskin dengan mencari metode yang optimal antara metode Ordinal Regresi Logistik dan metode Radial Basis Function dengan algoritma k-mean cluster. K-mean cluster digunakan untuk mendapatkan nilai rata-rata dan standar deviasi sebagai input jarak pada algoritma radial basis. Data rumahtangga miskin Kota Pasuruan hasil Program Pendataan dan Perlindungan Sosial (PPLS) tahun 2008 [3] diambil sebagai studi kasus dalam penelitian
Perbandingan Metode Regresi Logistik Ordinal dengan Jaringan Syaraf Tiruan…
19
ini. Dalam data PPLS ini rumahtangga miskin dikelompokkan menjadi tiga yaitu sangat miskin, miskin dan hampir miskin. Data inilah yang akan digunakan sebagai target dalam penelitian ini. Sedangkan variabel-variabel prediksi yang digunakan adalah variabel yang berpengaruh nyata terhadap kemiskinan. 2. Metode Regresi Logistik Ordinal Hosmer dan Lemeshow [5] mengemukakan bahwa regresi logistik adalah model regresi yang digunakan apabila variabel respon bersifat kualitatif. Model ini terdiri dari regresi logistik sederhana yang bersifat dikotomus yang mensyaratkan variabel respon terdiri dari dua kategori, dan regresi logistik politomous dengan variabel respon lebih dari dua kategori. Regresi logistik polytomous dengan variabel respon yang bertingkat sering dikenal dengan regresi logistik ordinal. Jumlah kategori pada variabel respon adalah sebanyak k kategori. Contoh variabel respon pada metode regresi logistik ordinal dengan jumlah kategori tiga adalah rendah, sedang, dan tinggi (ada tingkatan dalam kategori variabel respon). Model regresi logistik polytomous secara umum dinyatakan dalam persamaan 2.1 berikut:
P (Y = j | x) = p j ( x) =
e 1
g j ( x)
∑e
(2.1) g j ( x)
j =0
dimana: j=0,1,2,...l dengan l adalah jumlah kategori variabel respon g 0 ( x ) = 0, g j ( x ) = β j 0 + β j1 x1 + β j 2 x 2 + ... + β jp x p . Menurut Hosmer dan Lemeshow [5], fungsi likelihood untuk n sampel independen dengan 3 kategori variabel respon adalah: l(β ) =
n
∏ [π i =1
0
( x i ) y 0 i π 1 ( x i ) y1 i π 2 ( x i ) y 2 i ]
(2.2)
dimana π j ( x ) = P ( Y = j | x ) , sehingga n
(2.3) l ( β ) = ∏ [ P(Y = 0 | xi ) y0 i P(Y = 1| xi ) y1i P(Y = 2 | xi ) y2 i ]. i =1 Dengan menggunakan rumus∑ yij = 1untuk masing-masing i, maka fungsi log-likelihoodnya adalah: n
L ( β ) = ln l ( β ) = ln [ ∏ [ π 0 ( x i ) y 0 i π 1 ( x i ) y 1 i π 2 ( x i ) y 2 i ] ]
= =
∑ ∑ (y
i =1
( y o ln (π 0 ( x i ) + y1 ln (π 1 ( x i ) + y 2 ln (π 2 ( x i )) 0
[ln 1 − ln (1 + e g 1( xi ) + e g 2 ( xi ) ] + y1 [ln e g 1( x ) − ln (1 + e g 1( xi ) + e g 2 ( xi ) ] +
→ y 2 [ln e g 2 ( xi ) − ln (1 + e g 1( xi ) + e g 2 ( xi ) ]
20
Yenita Mirawanti, Brodjol Sutijo Suprih Ulama
Misalkan A = (1 + e g 1( xi ) + e g 2 ( xi ) ] , maka: =
= =
∑
∑
∑
∑ =∑ =
y 0 (ln 1) − y 0 (ln A ) + y1 (ln e g 1( xi ) ) − y1 (ln A ) + y 2 (ln e g 2 ( x i ) ) − y 2 (ln A )
y1 ln( e g 1( xi ) ) + y 2 ln( e g 2 ( xi ) ) − ( y 0 + y1 + y 2 )(ln A ) y 1 ln ( e g 1( xi ) ) + y 2 ln ( e g 2 ( xi ) ) − (ln A )
y1 ln( e g 1( xi ) ) + y 2 ln( e g 2 ( xi ) ) − ln(1 + e g 1( xi ) + e g 2 ( xi ) ) y1 g 1 ( xi ) + y 2 g 2 ( xi ) − ln(1 + e g 1( xi ) + e g 2 ( xi ) ).
2.4)
Taksiran parameter βk diperoleh dengan mendiferensialkan fungsi log-likelihood terhadap βk dengan k = 0, 1. Nilai maksimum diperoleh bila hasil diferensial fungsi loglikelihood bernilai nol. Diperlukan metode iterasi untuk mendapatkan taksiran pada metode maksimum likelihood karena tidak bisa diperoleh taksiran parameter dari pendeferensialan fungsi log-likelihood. Prosedur Klasifikasi Evaluasi prosedur klasifikasi adalah suatu evaluasi yang melihat peluang kesalahan klasifikasi yang dilakukan oleh suatu fungsi klasifikasi. Nilai APER menyatakan nilai proporsi sampel yang salah diklasifikasikan oleh fungsi klasifikasi [6]. Pada penelitian ini menggunakan ukuran ketepatan klasifikasi dengan rumus 1- APPER. Penentuan kesalahan pengklasifikasian dapat diketahui melalui tabel klasifikasi sebagai berikut : Tabel 2.1 Tabel Ketepatan Klasifikasi Johnson dan Wichern (1992) Predicted membership Actual Total ˆ π πˆ2 πˆ3 membership 1
π1 π2 π3 Total
n11
n12
n13
A
n21
n22
n23
B
n31 D
n32 E
n33 F
C G
Keterangan : n11= Jumlah yi dari π1 tepat diklasifikasikan sebagai πˆ1 , n12 = Jumlah yi dari π1 salah diklasifikasikan sebagai πˆ 2 , n13 = Jumlah yi dari π1 salah diklasifikasikan sebagai πˆ3 , n21 = Jumlah yi dari π2 salah diklasifikasikan sebagai πˆ1 , n22 = Jumlah yi dari π2 tepat diklasifikasikan sebagai πˆ 2 , n23 = Jumlah yi dari π2 salah diklasifikasikan sebagai πˆ3 , n31 = Jumlah yi dari π3 salah diklasifikasikan sebagai πˆ1 , n32 = Jumlah yi dari π3 salah diklasifikasikan sebagai πˆ 2 , dan n33 = Jumlah yi dari π3 tepat diklasifikasikan sebagai πˆ 3 .
Perbandingan Metode Regresi Logistik Ordinal dengan Jaringan Syaraf Tiruan…
21
Jaringan Syaraf Tiruan Fungsi Radial Basis dengan Pendekatan K-mean Cluster Dalam penerapannya, model radial basis function (RBF) mengandung sejumlah parameter (weight) yang harus ditaksir. Untuk mendapatkan model RBF yang sesuai, perlu menentukan kombinasi yang tepat antara jumlah variabel input, jumlah node (cluster) pada unit hidden layers, nilai tengah dan standar deviasi (skala atau width) dari variabel input pada setiap node, yang berimplikasi pada jumlah parameter yang optimal. Pemilihan Hubungan Input-Node pada Jaringan Syaraf Fungsi Basis Radial dilakukan dengan dua tahap [8]. Tahap pertama adalah pembelajaran unsupervision, yaitu untuk menentukan mean dan standar deviasi dari variabel input pada setiap node pada unit hidden layer. Metode k-mean cluster adalah salah satu metode dari beberapa metode unsupervision pada pemodelan RBFNN dan metode k-mean adalah salah satu bentuk metode pemetaan pada dirinya sendiri (Self Organizing map) yang juga dikembangkan dalan pemodelan NN. Apabila sudah didapatkan performa jumlah node yang optimal berdasarkan algoritma k-mean, maka dilakukan update bobot dengan fungsi aktivasi Gauss dan selanjutnya mensimulasikan output jaringan dengan menyelesaikan sistem persamaan linear dengan metode least square [7]. Pada metode k-mean cluster, data dipartisi ke dalam subgroup atau cluster, dimana pada setiap cluster mempunyai sifat yang homogen serta antar cluster mempunyai ciri yang berbeda. Jika ada m buah unit pada arsitektur model RFB, maka ada akan ada , i = 1, 2, 3, ..., m nilai rata-rata atau pusat. Penentuan nilai rata-rata dari setiap cluster dilakukan dengan iterasi. Nilai rata-rata cluster untuk iterasi ke n adalah (n). Berikut algoritma dari metode kmean cluster untuk menentukan jumlah nodenya : Step 1 Inisialisasi Memilih nilai secara random sebagai nilai awal dari pusat cluster (0), i = 1, 2, 3, ... , m Step 2 Similaritas Mendapatkan nilai k(x), indeks dari kesesuaian terbaik untuk pusat cluster, dengan meminimumkan jarak Euclidian, dengan kriteria : k= 1, 2, ... , m Step 3 Update Menghitung nilai pusat baru, dengan menggunakan suatu pendekatan, sebagai berikut :
dimana adalah parameter laju pembelajaran. Step 4 Ulangi langkah 2 dan 3 sampai tidak ada perubahan nilai pusat. Apabila sudah didapatkan performa jumlah node yang optimal berdasarkan algoritma k-mean cluster, maka dilakukan update bobot dengan fungsi aktivasi Gauss dan tahapan selanjutnya adalah mensimulasikan output jaringan dengan menyelesaikan sistem persamaan linier dengan metode ordinary least square.
22
Yenita Mirawanti, Brodjol Sutijo Suprih Ulama
3. Hasil dan Pembahasan Pembentukan Regresi Logistik Ordinal Secara Individu Dalam pembentukan model regresi logistik, tahap awal yang harus dilakukan adalah pembentukan variabel dummy pada variabel prediktor yang bersifat kategorik. Dalam penelitian ini, variabel prediktor yang harus di dummy yaitu variabel X2 sampai dengan X10. Variabel yang mempunyai kategori sejumlah k, akan membutuhkan dummy sebanyak k1.Tahapan selanjutnya adalah mengetahui variabel apa saja yang berpengaruh terhadap respon secara individu, oleh karena itu dilakukan pembentukan regresi logistik ordinal secara individu/sederhana. Hasil perhitungan taksiran parameter regresi logistik sederhana ini disajikan pada Tabel 3.1. Tabel 3.1 Taksiran Parameter Model Regresi Logistik Ordinal Secara Individu Predictor Coef SE Wald P_value X1 -0,02 0,00 21,27 0,00 X2 0,27 0,23 1,33 0,249 X3 -0,31 0,13 5,37 0,020 X4_1 0,14 0,38 0,14 0,707 X4_2 -2,84 0,41 49,19 0,000 X5_1 -0,28 0,14 4,27 0,039 X5_2 1,42 1,24 1,30 0,254 X6_1 -0,12 0,52 0,05 0,818 X6_2 -0,20 0,52 0,15 0,696 X7 0,29 0,17 2,76 0,096 X8_1 1,14 0,29 15,14 0,000 X8_2 -0,34 1,39 0,06 0,805 X8_3 -0,88 1,25 0,50 0,480 X8_4 1,49 0,35 18,23 0,000 X8_6 0,67 0,25 7,11 0,008 X8_7 0,96 0,39 5,91 0,015 X8_8 1,15 0,23 24,51 0,000 X8_9 0,62 0,21 8,74 0,003 X8_10 0,88 0,25 12,16 0,000 X9_1 0,19 0,14 1,79 0,180 X9_2 -0,65 0,25 6,51 0,011 X9_3 -2,28 0,47 23,74 0,000 X10 -0,79 0,17 22,27 0,000 X11 0,02 0,00 29,95 0,000 X12 0,01 0,00 14,42 0,000 Berdasarkan nilai parameter pada Tabel 3.1 diketahui bahwa variabel X2, X6 dan X7 tidak signifikan pada penentuan klasifikasi rumahtangga miskin di Kota Pasuruan. Sedangkan
Perbandingan Metode Regresi Logistik Ordinal dengan Jaringan Syaraf Tiruan…
23
variabel yang signifikan terhadap penentuan klasifikasi rumahtangga miskin di Kota Pasuruan adalah variabel X1, X2, X3, X4_2, X5_1, X8_1, X8_4, X8_6, X8_7, X8_8, X8_9, X8_10, X9_2, X9_3, X10, X11, dan X12. Pembentukan Regresi Logistik Ordinal Secara Serentak Untuk melihat pengaruh setiap variabel prediktor pada variabel respon secara bersama-sama, maka dimodelkan regresi logistik ordinal berganda. Untuk melihat apakah ada variabel yang berpengaruh terhadap model, perlu dilakukan uji signifikansi dengan menggunakan statistik uji rasio likelihood (G), selanjutnya untuk mengetahui variabel apa saja yang berpengaruh digunakan uji Wald. Hasil estimasi parameter regresi logistik ordinal secara serentak disajikan pada Tabel 3.2 berikut. Tabel 3.2 Taksiran Parameter Model Regresi logistik Ordinal Secara Serentak Predictor Coef SE Wald P_value Constan (1) -2,150 0,766 7,883 0,005 Constan (2) 0,299 0,763 0,154 0,695 X1 0,014 0,005 7,390 0,007 X2 0,396 0,293 1,833 0,176 X3 -0,843 0,176 23,026 0,000 X4_1 0,056 0,411 0,019 0,891 X4_2 -3,345 0,449 55,551 0,000 X5_1 0,356 0,179 3,941 0,047 X5_2 1,166 1,439 0,657 0,418 X6_1 0,299 0,628 0,226 0,634 X6_2 0,416 0,627 0,440 0,507 X7 0,310 0,214 2,103 0,147 X8_1 1,149 0,344 11,146 0,001 X8_2 -2,014 1,934 1,084 0,298 X8_3 -1,434 1,415 1,027 0,311 X8_4 1,786 0,432 17,132 0,000 X8_6 1,007 0,304 10,994 0,001 X8_7 1,282 0,463 7,673 0,006 X8_8 1,659 0,291 32,455 0,000 X8_9 1,016 0,258 15,558 0,000 X8_10 0,629 0,299 4,421 0,036 X9_1 -0,077 0,172 0,201 0,654 X9_2 -1,568 0,313 25,133 0,000 X9_3 -3,024 0,554 29,847 0,000 X10 -0,553 0,212 6,804 0,009 X11 0,024 0,004 31,504 0,000 X12 0,009 0,003 10,097 0,001
24
Yenita Mirawanti, Brodjol Sutijo Suprih Ulama
Nilai statistik uji G2 yang diperoleh dari model ini adalah 511,393 dengan derajat bebas sebesar 25. Dengan tingkat signifikan sebesar 5 persen (0,05) dan derajat bebas 25, didapatkan nilai χ 2 ( 0 .0 5 , 2 5 ) pada tabel adalah 37.65 sehingga diperoleh nilai G2> χ 2 . Berdasarkan nilai ini, maka keputusan kita adalah menolak Ho yang berarti minimal ada satu variabel prediktor yang berpengaruh terhadap variabel respon. Pembentukan Regresi Logistik Ordinal Variabel yang Signifikan Pada tahapan ini akan dilakukan permodelan dengan menggunakan variabel prediktor yang signifikan terhadap respon. Hasil perhitungan uji statistik dan taksiran parameter disajikan pada Tabel 3.3 berikut. Tabel 3.3Taksiran Parameter Model Regresi Logistik Ordinal Signifikan Predictor Coef SE Wald P_value Const(1) -1,67 0,47 12,32 0,000 Const(2) 0,77 0,47 2,66 0,103 X1 0,01 0,01 7,84 0,005 X3 -0,92 0,17 28,84 0,000 X4_D1 0,04 0,41 0,01 0,918 X4_D2 -3,37 0,45 56,90 0,000 X5_D1 0,36 0,18 4,04 0,044 X5_D2 0,81 1,32 0,38 0,539 X8-1 1,11 0,34 10,58 0,001 X8_2 -1,78 1,92 0,86 0,354 X8_3 -1,55 1,41 1,21 0,272 X8_4 1,73 0,42 16,66 0,000 X8_6 0,98 0,30 10,44 0,001 X8_7 1,27 0,46 7,59 0,006 X8_8 1,64 0,29 32,17 0,000 X8_9 1,00 0,26 15,21 0,000 X8_10 0,58 0,30 3,83 0,050 X9_D1 -0,07 0,17 0,15 0,703 X9_D2 -1,52 0,31 23,94 0,000 X9-D3 -2,97 0,55 29,50 0,000 X10 -0,51 0,21 6,12 0,013 X11 0,02 0,00 31,27 0,000 X12 0,01 0,00 10,42 0,001 Model regresi logistik yang diperoleh di atas digunakan untuk mengklasifikasikan data testing. Untuk melihat kebaikan model regresi logistik ordinal dalam pengklasifikasian, digunakan tabel ketepatan klasifikasi dengan melihat ketepatan model dalam mengklasifikasikan data. Berikut ini adalah tabel ketepatan klasifikasi berdasarkan data testing.
Perbandingan Metode Regresi Logistik Ordinal dengan Jaringan Syaraf Tiruan…
25
Tabel 3.4 berikut menunjukkan ketepatan klasifikasi pada data testing. Pada data testing, ketepatan klasifikasi menunjukkan hasil ketepatan sebesar 38 persen dengan ketepatan klasifikasi pada kategori tiga sebesar 100 persen. Tabel 3.4 Tabel Ketepatan Klasifikasi Pada Data Testing Yhat Ketepatan Kategori Total Klasifikasi 1 2 3 1 0 0 61 61 0 Y 2 0 0 63 63 0 3 0 0 76 76 100 Total 0 0 200 200 38
Pembentukan Model Jaringan Syaraf Tiruan Fungsi Radial Basis Pembentukan model menggunakan k-mean cluster digunakan untuk mendapatkan jumlah node pada hidden layer beserta nilai mean dan standar deviasi. Pada dasarnya belum ada patokan/standar untuk menentukan berapa jumlah kelas yang paling baik, sehingga dalam penelitian ini digunakan jumlah kelas sebanyak tiga.Arsitektur dari model RBF dengan menggunakan tiga kelas hasil k-mean cluster disajikan pada Gambar 1 berikut ini.
Gambar 1 Arsitektur Jaringan Syaraf Tiruan Fungsi Radial Basis Menggunakan Tiga Node Hasil K-mean Cluster
26
Yenita Mirawanti, Brodjol Sutijo Suprih Ulama
Program RBF digunakan untuk mendapatkan taksiran nilai output dengan menggunakan nilai mean dan standar deviasi yang sudah didapatkan dari proses k-mean cluster untuk menaksir matriks Gauss (H) yang dilanjutkan dengan parameter/bobot lapisan output dengan metode Ordinary Least Square (OLS). Dalam program ini akan diperoleh matriks Gauss (H) pada data training, dan nilai bobot/taksiran parameter (W) pada masingmasing node. Berdasarkan hasil metode k-mean cluster, nilai matriks Gauss pada masing-masing node adalah sebagai berikut: ⎡1 H 1 = exp ⎢ ⎢⎣ 2
2 2 2 2 ⎛ x 3 − 1,1 9 ⎞ ⎛ x1 2 − 3 9 , 9 0 ⎞ ⎫⎪ ⎤ ⎪⎧ ⎛ x1 − 2 8, 8 2 ⎞ ⎛ x 2 − 1, 0 3 ⎞ ... + + + ⎨⎜ ⎜ ⎟ ⎟ ⎜ 0, 39 ⎟ ⎜ ⎟ ⎬⎥ 30, 60 ⎝ 0 .1 7 ⎠ ⎝ ⎠ ⎝ ⎠ ⎪⎭ ⎥⎦ ⎩⎪ ⎝ 1 3, 3 7 ⎠
2 ⎡ 1 ⎧⎪ ⎛ x − 26, 56 ⎞ 2 ⎛ x − 1, 03 ⎞ 2 ⎛ x − 1, 42 ⎞ 2 ⎛ x12 − 39, 46 ⎞ ⎫⎪ ⎤ 3 2 H 2 = exp ⎢ ⎨ ⎜ 1 ... + + + ⎟ ⎜ 0,18 ⎟ ⎜ 0, 49 ⎟ ⎜ 28, 54 ⎟ ⎬ ⎥ ⎢⎣ 2 ⎩⎪ ⎝ 13, 07 ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎭⎪ ⎥⎦ 2 ⎡ 1 ⎧⎪ ⎛ x − 41, 00 ⎞ 2 ⎛ x − 1, 22 ⎞ 2 ⎛ x − 1, 63 ⎞ 2 ⎛ x12 − 29, 37 ⎞ ⎫⎪ ⎤ 3 2 H 3 = exp ⎢ ⎨ ⎜ 1 ... + + + ⎟ ⎜ 0, 41 ⎟ ⎜ 0, 48 ⎟ ⎜ ⎟ ⎬⎥ 25, 94 ⎢⎣ 2 ⎩⎪ ⎝ 19, 01 ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎭⎪ ⎥⎦
H = [H
1
→ H
2
→ H 3 ].
Berdasarkan matriks Gauss yang diperoleh, maka tahapan selanjutnya adalah menghitung nilai bobot/parameter (W). Nilai bobot/taksiran parameter (W) ini didapatkan dengan metode OLS (Ordinary Least Square) yaitu dengan mengalikan matriks
( H * H ) * ( H *Y ) dimana H adalah matriks Gauss yang sudah kita peroleh sebelumnya, '
−1
'
sedangkan Y adalah nilai target. Berdasarkan perhitungan dengan metode OLS, diperoleh nilai taksiran parameter untuk setiap kategori yang disajikan pada Tabel 3.5. Tabel 3.5 Nilai Taksiran Parameter Model RBF_Design pada Data Training Kategori 1 Kategori 2 Kategori 3 9.4663 -2.9279 -6.5383 15.8247 0.6793 -16.5040 -24.4415 -19.0533 43.4949 0.3024 0.3471 0.3505 Untuk melihat keakuratan pengelompokan baik pada kategori satu, dua dan tiga digunakan nilai ketepatan klasifikasi seperti disajikan pada Tabel 3.6 berikut. Tabel 3.6 Ketepatan Klasifikasi Pada Data Training dan Data Testing Ketepatan Data Ketepatan Data Kategori Training Testing (%) (%) 1 68.63 70.00 2 65.88 68.50 3 68.00 62.00 Total 67,48 67,08
Perbandingan Metode Regresi Logistik Ordinal dengan Jaringan Syaraf Tiruan…
27
Pada data training, metode RBF dapat melakukan pengelompokan dengan tepat pada kategori satu sebesar 68.63 persen, sedangkan pada kategori dua hanya mampu melakukan pengelompokan dengan tepat sebesar 65.88 persen dan pada kategori tiga sebesar 68 persen. Secara keseluruhan, model telah mampu memberikan tingkat akurasi sebesar 67,48 persen. Pada data testing, keakuratan pengelompokan pada kategori satu sebesar 70 persen, pada kategori dua sebesar 68,5 persen dan hanya mampu melakukan mengklasifikasikan dengan tepat pada kategori tiga sebesar 62 persen. Model yang terbentuk telah mampu memberikan tingkat akurasi sebesar 67,08 persen. Pemilihan Metode Terbaik Pemilihan metode terbaik antara regresi logistik dengan jaringan syaraf radial basis function dilakukan dengan melihat ketepatan klasifikasi pada masing-masing kategori variabel respon. Berdasarkan uraian di atas diketahui bahwa dengan menggunakan metode regresi logistik, ketepatan klasifikasi data testing adalah sebesar 38 persen sedangkan ketepatan klasifikasi data testing pada metode RBF adalah sebesar 67,08 persen. Berdasarkan perhitungan di atas bisa kita simpulkan bahwa metode RBF memberikan tingkat akurasi yang lebih baik daripada metode regresi logistik ordinal.Untuk lebih meyakinkan metode mana yang lebih baik digunakan, maka dilakukan 10-fold cross validasi. Tabel 3.7 Hasil 10-Fold Cross Validasi Pada Data Testing
Percobaan 1 2 3 4 5 6 7 8 9 10 Rata-rata
Regresi Logistik 25,50 31,00 37,50 34,00 38,00 27,50 34,00 35,50 36,50 35,50 33,50
RBF 68,19 67,92 69,59 67,19 67,09 76,74 69,19 67,03 67,38 67,33 68,77
Pada Tabel 3.7 terlihat bahwa dengan adanya sepuluh kali percobaan, pada setiap percobaan menujukkan bahwa tingkat akurasi metode radial basis function lebih baik daripada metode regresi logistik ordinal. Hasil dari 10 fold-validasi menunjukkan rata-rata tingkat akurasi metode regresi logistik ordinal sebesar 33,50 persen dan metode radial basis function sebesar 68,77 persen. Berdasarkan simulasi perhitungan di atas bisa disimpulkan bahwa metode radial basis function dengan pendekatan k-mean cluster lebih baik daripada metode regresi logistik ordinal.
28
Yenita Mirawanti, Brodjol Sutijo Suprih Ulama
4. Kesimpulan Dari penelitian ini bisa ditarik beberapa kesimpulan sebagai berikut: 1. Dengan metode regresi logistik ordinal diketahui variabel yang berpengaruh terhadap respon yaitu variabel X1, X2, X3, X4_2, X5_1, X8_1, X8_4, X8_6, X8_7, X8_8, X8_9, X8_10, X9_2, X9_3, X10, X11, dan X12 2. Pemodelan menggunakan metode radial basis function dengan pendekatan k-mean cluster memberikan tingkat akurasi yang lebih baik dari pada metode regresi logistik ordinal dimana ketepatan klasifikasi pada data testing dengan metode RBF sebesar 67.08 dan ketepatan klasifikasi metode regresi logistik ordinal sebesar 38 persen. 3. Dengan 10–fold cross validasi diperoleh hasil rata-rata tingkat akurasi metode regresi logistik ordinal sebesar 33,50 persen sedangkan tingkat akurasi metode radial basis function dengan pendekatan k-mean cluster adalah sebesar 68,77 persen. Berdasarkan perhitungan ini bisa diambil kesimpulan bahwa metode radial basis function dengan pendekatan k-mean cluster merupakan metode yang lebih baik dibandingkan regresi logistik ordinal. Daftar Pustaka [1] Agresti, A., 1990, Categorical Data Analysis, John Wiley and Sons, Inc, New York. [2] Ali, I. and Pernia, EM., 2003, Infrastructure and Poverty Reduction : What is the Connection? ERD Policy Brief No. 13 Economics and Research Department. ADB. [3] Badan Pusat Statistik, 2008, Pendataan Program Perlindungan Sosial 2008, Pedoman Pencacah, BPS, Jakarta. [4] Badan Pusat Statistik, 2000, Pengembangan Kegiatan Analisis, Indikator Kemiskinan, dan IPM: Antara Pusat dan Daerah, BPS. [5] Hosmer, D.W., and Lemeshow. S, 1989, Applied Logistic Regression. John Willey, New York. [6] Johnson, R. A., Dan Wichern, D. W., 1992, Applied Multivariate Statistical Analysis, Prentice Hall, New Jersey. [7] Kusumadewi, S., 2004, Membangun Jaringan Syaraf Tiruan Menggunakan Matlab & Exel Link, Penerbit Graha Ilmu, Yogyakarta. [8] Sutijo, B., Subanar and Guritno, S., 2006, Input-Nodes Link Selection on Radial Basis Funtion Neural Network, MIPA, 16(1). [9] Susanto, H. and Saidi, A., 1998, Klasifikasi Masyarakat Miskin, Puslitbang Ekonomi dan Pembangunan Lembaga Ilmu Penelitian Indonesia (PEP-LIPI), Jakarta. [10] Word Bank, 2006, Era Baru dalam Pengentasan Kemiskinan di Indonesia, World Bank, Jakarta.