PERBANDINGAN METODE REGRESI LOGISTIK ORDINAL DENGAN JARINGAN SYARAF TIRUAN FUNGSI RADIAL BASIS Studi kasus: Klasifikasi Rumahtangga Miskin Kota Pasuruan Tahun 2008 Yenita Mirawanti1, Brodjol Sutijo Suprih Ulama Mahasiswa Pascasarjana Jurusan Statistika, FMIPA-ITS, Surabaya 2 Dosen Pascasarjana Jurusan Statistika, FMIPA-ITS, Surabaya
1
e-mail : 1
[email protected], 2
[email protected]
Abstract Poverty is a situation there is an inability to meet basic needs such as food, clothing, shelter, education, and health. Poverty can be caused by the scarcity of means of fulfilling the basic needs, or the difficulty to access education and employment. The purpose of this study was to group of poor households based on several economic variables with ordinal logistic regression methods and artificial neural networks radial basis function approach to k-means cluster algorithm. Logistic regression is one method of regression where the response variable has a qualitative nature and have the order. Radial Basis Function Neural Network (RBF) is one form of neural network multilayer networks that can be used in case of classification. The design of the RBF neural network is a model that transforms the nonlinear input using Gaussian activation function in hidden layer before being processed in a linear fashion in the output layer. Data Pasuruan poor households in 2008 based on the Pendataan Program Perlindungan Sosial tahun 2008 (PPLS08) is used as a case study in this research. The results showed that the RBF method with k-means cluster approach provides a level of classification accuracy is better than ordinal logistic regression method with a classification accuracy is 67.08 percent for the RBF method with k-means cluster approach and 38 percent for ordinal logistic regression method. Keywords: Classification, Gaussian, K-mean, Logistic Regression, Poverty, RBF. Abstrak Kemiskinan adalah keadaan dimana terjadi ketidakmampuan untuk memenuhi kebutuhan dasar seperti makanan, pakaian, tempat berlindung, pendidikan, dan kesehatan. Kemiskinan dapat disebabkan oleh kelangkaan alat pemenuh kebutuhan dasar, ataupun sulitnya akses terhadap pendidikan dan pekerjaan. Tujuan dari penelitian ini adalah mengelompokkan rumahtangga miskin berdasarkan beberapa variabel ekonomi dengan metode regresi logistik ordinal dan
1
jaringan syaraf tiruan fungsi radial basis dengan pendekatan algoritma k-mean cluster. Regresi logistik merupakan salah satu metode regresi dimana variabel responnya mempunyai sifat kualitatif dan mempunyai urutan. Jaringan Syaraf Fungsi Radial Basis (RBF) merupakan salah satu bentuk jaringan multilayer neural network yang bisa digunakan dalam kasus klasifikasi. Desain dari RBF adalah model neural network yang mentransformasi input secara nonlinear dengan menggunakan fungsi aktivasi Gaussian pada lapisan tersembunyi sebelum diproses secara linear pada lapisan output. Data rumahtangga miskin Kota Pasuruan tahun 2008 berdasarkan hasil Pendataan Program Perlindungan Sosial tahun 2008 (PPLS08) digunakan sebagai studi kasus dalam penelitian ini. Hasil penelitian menunjukkan bahwa metode RBF dengan pendekatan k-mean cluster memberikan tingkat ketepatan klasifikasi yang lebih baik daripada metode regresi logistik ordinal dengan ketepatan klasifikasi sebesar 67,08 persen untuk metode RBF dengan pendekatan k-mean cluster dan 38 persen untuk metode regresi logistik ordinal. Kata Kunci: Gaussian, Kemiskinan, Klasifikasi, K-mean, RBF, Regresi Logistik. 1. Pendahuluan Salah satu indikator mengukur keberhasilan pembangunan adalah ukuran kemiskinan suatu daerah/ negara. Isu tentang kemiskinan sepertinya merupakan fokus perhatian pembangunan di hampir setiap negara terutama negara-negara berkembang seperti Indonesia. Perhatian kemiskinan bahkan menjadi isu global yang terungkap secara tegas dalam sasaransasaran Pembangunan Milenium (Millenium Devepment Goal, MDGs). MDGs menetapkan penghapusan kemiskinan ekstrim dan kelaparan sebagai sasaran utama [1]. Komitmen pemerintah untuk mengentaskan kemiskinan tercantum dalam Rencana Pembangunan Jangka Menengah (RPJM) 2005-2009 yang disusun berdasarkan Strategi Nasional Penanggulangan Kemiskinan (SNPK) dan turut menandatangani Tujuan Pembangunan Milenium atau MDGs (Millenium Development Goals) untuk tahun 2015 [2]. Sekalipun sudah menjadi komitmen global, bukan berarti suatu hal yang mudah dan sederhana untuk menanggulangi kemiskinan. Penanggulangan kemiskinan dibutuhkan strategi dan kebijakan – kebijakan khusus yang berlingkup lintas sektoral dan terintegrasi. Banyak sekali penelitian tentang kemiskinan yang telah dilakukan antara lain penelitian yang dilakukan Kwon seperti dikutip Ali dan Pernia [3]. Mereka menemukan hubungan antara investasi pembangunan jalan provinsi terhadap penurunan kemiskinan. Jalan provinsi berpengaruh secara langsung dalam meningkatkan upah dan kesempatan kerja untuk penduduk miskin. Studi senada di Filipina, dengan menggunakan data provinsi menunjukkan bahwa investasi pembangunan jalan jika dihubungkan dengan investasi bidang pendidikan berpengaruh secara signifikan secara langsung maupun tidak langsung terhadap kesejahteraan penduduk miskin [3]. Studi tentang klasifikasi masyarakat miskin juga pernah dilakukan antara lain oleh Hari Susanto dan Anas Saidi [4]. Dalam penelitian ini mereka hanya mengemukakan beberapa klasifikasi rumahtangga miskin menurut beberapa sumber. Klasifikasi yang dikenalkan dalam penelitian ini diantaranya adalah penduduk miskin, miskin sekali dan sangat miskin.
Mengingat pentingnya data kemiskinan, penulis ingin memberikan alternatif klasifikasi rumahtangga miskin dengan mencari metode yang optimal antara metode Ordinal Regresi Logisti dan metode Radial Basis Function dengan algoritma K-mean kluster. K-mean kluster digunakan untuk mendapatkan nilai rata-rata dan standar deviasi sebagai input jarak pada algoritma radial basis. Data rumahtangga miskin Kota Pasuruan hasil Program Pendataan dan Perlindungan Sosial (PPLS) tahun 2008 [5] diambil sebagai studi kasus dalam penelitian ini. Dalam data PPLS ini rumahtangga miskin dikelompokkan menjadi tiga yaitu sangat miskin, miskin dan hampir miskin. Data inilah yang akan digunakan sebagai target dalam penelitian ini. Sedangkan variabel-variabel prediksi yang digunakan adalah variabel yang berpengaruh nyata terhadap kemiskinan. 2. Metode 2.1.
Regresi Logistik Ordinal Hosmer dan Lemeshow [6] mengemukakan bahwa regresi logistik adalah model regresi yang digunakan apabila variabel respon bersifat kualitatif. Model ini terdiri dari regresi logistik sederhana yang bersifat dikotomus yang mensyaratkan variabel respon terdiri dari dua kategori, dan regresi logistik politomous dengan variabel respon lebih dari dua kategori. Regresi logistik polytomous dengan variabel respon yang bertingkat sering dikenal dengan regresi logistik ordinal. Jumlah kategori pada variabel respon adalah sebanyak k kategori. Contoh variabel respon pada metode regresi logistik ordinal dengan jumlah kategori tiga adalah rendah, sedang, dan tinggi (ada tingkatan dalam kategori variabel respon). Model regresi logistik polytomous secara umum dinyatakan dalam persamaan 2.1 berikut: P (Y j= | x) p= = j ( x)
e 1
g j ( x)
∑e
g j ( x)
j =0
(2.1)
dimana: j=0,1,2,...l dengan l adalah jumlah kategori variabel respon g 0 ( x)= 0, g j ( x)= β j 0 + β j1 x1 + β j 2 x2 + ... + β jp x p Menurut Hosmer dan Lemeshow [6], fungsi likelihood untuk n sampel independen dengan 3 kategori variabel respon adalah: n
l ( β ) = ∏ [π 0 ( xi ) y0 i π 1 ( xi ) y1i π 2 ( xi ) y2 i ] i =1
Dimana π j= ( x ) P= (Y = l (β )
n
= [ P (Y ∏ i =1
0 | xi = ) y0 i P (Y 1| xi= ) y1i P (Y 2 | xi ) y2 i ]
Dengan menggunakan rumus adalah: = L( β )
=
ln = l (β )
∑(y
o
(2.2)
j | x ) , sehingga
∑
(2.3) yij = 1 untuk masing-masing i, maka fungsi log-likelihoodnya
n
ln[∏ [π 0 ( xi ) y0 i π 1 ( xi ) y1i π 2 ( xi ) y2 i ]] i =1
ln(π 0 ( xi ) + y1 ln(π 1 ( xi ) + y2 ln(π 2 ( xi ))
3
=
∑ ( y [ln1 − ln(1 + e 0
g 1( xi )
+ e g 2( xi ) ] + y1[ln e g1( x ) − ln(1 + e g1( xi ) + e g 2( xi ) ] +
→ y2 [ln e g 2( xi ) − ln(1 + e g1( xi ) + e g 2( xi ) ]
Misal A = (1 + e g1( xi ) + e g 2( xi ) ] , maka: =
= =
=
=
∑ ∑ ∑ ∑ ∑
y0 (ln1) − y0 (ln A) + y1 (ln e g1( xi ) ) − y1 (ln A) + y2 (ln e g 2( xi ) ) − y2 (ln A)
y1 ln(e g1( xi ) ) + y2 ln(e g 2( xi ) ) − ( y0 + y1 + y2 )(ln A) y1 ln(e g1( xi ) ) + y2 ln(e g 2( xi ) ) − (ln A)
y1 ln(e g1( xi ) ) + y2 ln(e g 2( xi ) ) − ln(1 + e g1( xi ) + e g 2( xi ) )
y1 g1 ( xi ) + y2 g 2 ( xi ) − ln(1 + e g1( xi ) + e g 2( xi ) )
(2.4)
Taksiran parameter βk diperoleh dengan mendiferensialkan fungsi log-likelihood terhadap βk dengan k = 0, 1. Nilai maksimum diperoleh bila hasil diferensial fungsi loglikelihood bernilai nol. Diperlukan metode iterasi untuk mendapatkan taksiran pada metode maksimum likelihood karena tidak bisa diperoleh taksiran parameter dari pendeferensialan fungsi log-likelihood. 2.1.1
Pengujian Parameter Secara Serentak Pengujian secara serentak dimaksudkan untuk mendiagnosa peranan variabel prediktor dalam model secara bersama-sama. Hal ini bisa diartikan bahwa uji ini dimaksudkan untuk melihat ada tidaknya pengaruh variabel prediktor terhadap model. Hipotesis dari uji ini adalah: H 0 : β1=
β 2= ...= β k= 0
H1 : minimalaadaasatuanilaia β k ≠ 0
Statistik uji yang digunakan adalah statistik uji Rasio Likelihood yang disimbolkan dengan G. Statistik uji G ini berdistribusi chi-square dengan derajat bebas k dimana k merupakan banyaknya variabel prediktor. Statistik uji G ini dirumuskan sebagai berikut: L G 2 = −2 ln 1 L0
Dimana: L1 = Likelihood tanpa variabel prediktor tertentu L0 = Likelihood dengan variabel prediktor tertentu Pengambilan keputusan dilakukan dengan membandingkan nilai statistik uji G2 dengan nilai chi-square tabel dengan tingkat signifikan sebesar dan derajat bebas sebesar k. Keputusan tolak H0 diambil apabila nilai statistik uji G2 > X2(db, ). 2.1.2
Pengujian Parameter Secara Parsial Pengujian parameter dilakukan untuk mengetahui apakah variabel prediktor berpengaruh nyata atau tidak terhadap variabel responnya. Uji ini dimaksudkan untuk melihat apakah suatu variabel prediktor layak masuk ke dalam model [7]. Hipotesis dari uji ini adalah:
H 0 : βk = 0 H1 : β k ≠ 0 Statistik uji yang digunakan dalam pengujian ini adalah statistik uji Wald (W) yang dirumuskan sebagai berikut:
β k dengan k=1,2,...p Wk = ( β ) SE k 2
Statistik uji W mendekati distribusi Chi-square dengan derajat bebas 1. Aturan pengambilan keputusan dari hipotesis di atas adalah hipotesis nol ditolak jika nilai statistik uji Wk > X
2
(α ,1)
2.1.3
Prosedur Klasifikasi Evaluasi prosedur klasifikasi adalah suatu evaluasi yang melihat peluang kesalahan klasifikasi yang dilakukan oleh suatu fungsi klasifikasi. Nilai APER menyatakan nilai proporsi sampel yang salah diklasifikasikan oleh fungsi klasifikasi [8]. Pada penelitian ini menggunakan ukuran ketepatan klasifikasi dengan rumus 1- APPER. Penentuan kesalahan pengklasifikasian dapat diketahui melalui tabel klasifikasi sebagai berikut : Tabel 2.1 Tabel Ketepatan Klasifikasi Johnson dan Wichern (1992) Predicted membership Actual Total πˆ3 πˆ1 πˆ 2 membership
π1 π2 π3 Total
n11
n12
n13
A
n21
n22
n23
B
n31 D
n32 E
n33 F
C G
Keterangan : n11= Jumlah yi dari π1 tepat diklasifikasikan sebagai πˆ1 n12 = Jumlah yi dari π1 salah diklasifikasikan sebagai πˆ 2 n13 = Jumlah yi dari π1 salah diklasifikasikan sebagai πˆ3 n21 = Jumlah yi dari π2 salah diklasifikasikan sebagai πˆ1 n22 = Jumlah yi dari π2 tepat diklasifikasikan sebagai πˆ 2 n23 = Jumlah yi dari π2 salah diklasifikasikan sebagai πˆ3 n31 = Jumlah yi dari π3 salah diklasifikasikan sebagai πˆ1 n32 = Jumlah yi dari π3 salah diklasifikasikan sebagai πˆ 2 n33 = Jumlah yi dari π3 tepat diklasifikasikan sebagai πˆ3
5
2.2
Jaringan Syaraf Tiruan Fungsi Radial Basis dengan Pendekatan K-mean Cluster Dalam penerapannya, model radial basis function (RBF) mengandung sejumlah parameter (weight) yang harus ditaksir. Untuk mendapatkan model RBF yang sesuai, perlu menentukan kombinasi yang tepat antara jumlah variabel input, jumlah node (cluster) pada unit hidden layers, nilai tengah dan standar deviasi (skala atau width) dari variabel input pada setiap node, yang berimplikasi pada jumlah parameter yang optimal. Pemilihan Hubungan Input-Node pada Jaringan Syaraf Fungsi Radial Basis dilakukan dengan dua tahap [9]. Tahap pertama adalah pembelajaran unsupervisi, yaitu untuk menentukan mean dan standart deviasi dari variabel input pada setiap node pada unit hidden layer. Metode K-mean cluster adalah salah satu metode dari beberapa metode unsupervisi pada pemodelan RBFNN dan metode K-mean adalah salah satu bentuk metode pemetaan pada dirinya sendiri (Self Organizing map) yang juga dikembangkan dalan pemodelan NN. Apabila sudah didapatkan performa jumlah node yang optimal berdasarkan algoritma K-Mean, maka dilakukan update bobot dengan fungsi aktivasi gaussian dan selanjutnya mensimulasikan output jaringan dengan menyelesaikan sistem persamaan linier dengan metode least square [10]. Pada metode k-mean cluster, data dipartisi kedalam subgroup atau cluster, dimana pada setiap cluster mempunyai sifat yang homogen serta antar cluster mempunyai ciri yang berbeda. Jika ada m buah unit pada arsitektur model RFB, maka ada akan ada , i = 1, 2, 3, ..., m nilai rata-rata atau pusat. Penentuan nilai rata-rata dari setiap cluster dilakukan dengan iterasi. Nilai rata-rata cluster untuk iterasi ke n adalah (n). Berikut algoritma dari metode kmean cluster untuk menentukan jumlah nodenya : Step 1 Inisialisasi Memilih nilai secara random sebagai nilai awal dari pusat cluster (0), i = 1, 2, 3, ... , m Step 2 Similaritas Mendapatkan nilai k(x), indeks dari kesesuaian terbaik untuk pusat cluster, dengan meminimumkan jarak euclidian, dengan kriteria : k= 1, 2, ... , m Step 3 Update Menghitung nilai pusat baru, dengan menggunakan suatu pendekatan, sebagai berikut :
dimana adalah parameter laju pembelajaran Step 4 Ulangi langkah 2 dan 3 sampai tidak ada perubahan nilai pusat. Apabila sudah didapatkan performa jumlah node yang optimal berdasarkan algoritma k-mean cluster, maka dilakukan update bobot dengan fungsi aktivasi gaussian dan tahapan selanjutnya adalah mensimulasikan output jaringan dengan menyelesaikan sistem persamaan linier dengan metode ordinary least square.
3. Hasil dan Pembahasan 3.1 Regresi Logistik Ordinal 3.1.1 Pembentukan Regresi Logistik Ordinal Secara Individu Dalam pembentukan model regresi logistik, tahap awal yang harus dilakukan adalah pembentukan dummy variabel pada variabel prediktor yang bersifat kategorik. Dalam penelitian ini, variabel prediktor yang harus di dummy yaitu variabel X2 sampai dengan X10. Variabel yang mempunyai kategori sejumlah k, akan membutuhkan dummy sebanyak k-1. Tahapan selanjutnya adalah mengetahui variabel apa saja yang berpengaruh terhadap respon secara individu, oleh karena itu dilakukan pembentukan regresi logistik ordinal secara individu/sederhana. Hasil perhitungan taksiran parameter regresi logistik sederhana ini disajikan pada tabel 3.1. Tabel 3.1 Taksiran Parameter Model Regresi Logistik Ordinal Secara Individu Predictor Coef SE Wald P_value X1 -0,02 0,00 21,27 0,00 X2 0,27 0,23 1,33 0,249 X3 -0,31 0,13 5,37 0,020 X4_1 0,14 0,38 0,14 0,707 X4_2 -2,84 0,41 49,19 0,000 X5_1 -0,28 0,14 4,27 0,039 X5_2 1,42 1,24 1,30 0,254 X6_1 -0,12 0,52 0,05 0,818 X6_2 -0,20 0,52 0,15 0,696 X7 0,29 0,17 2,76 0,096 X8_1 1,14 0,29 15,14 0,000 X8_2 -0,34 1,39 0,06 0,805 X8_3 -0,88 1,25 0,50 0,480 X8_4 1,49 0,35 18,23 0,000 X8_6 0,67 0,25 7,11 0,008 X8_7 0,96 0,39 5,91 0,015 X8_8 1,15 0,23 24,51 0,000 X8_9 0,62 0,21 8,74 0,003 X8_10 0,88 0,25 12,16 0,000 X9_1 0,19 0,14 1,79 0,180 X9_2 -0,65 0,25 6,51 0,011 X9_3 -2,28 0,47 23,74 0,000 X10 -0,79 0,17 22,27 0,000 X11 0,02 0,00 29,95 0,000 X12 0,01 0,00 14,42 0,000 Berdasarkan nilai parameter pada tabel 3.1 diketahui bahwa variabel X2, X6 dan X7 tidak signifikan pada penentuan klasifikasi rumahtangga miskin di Kota Pasuruan. Sedangkan variabel yang signifikan terhadap penentuan klasifikasi ruta miskin di Kota Pasuruan adalah
7
variabel X1, X2, X3, X4_2, X5_1, X8_1, X8_4, X8_6, X8_7, X8_8, X8_9, X8_10, X9_2, X9_3, X10, X11, dan X12. 3.1.2 Pembentukan Regresi Logistik Ordinal Secara Serentak Untuk melihat pengaruh setiap variabel prediktor pada variabel respon secara bersama-sama, maka dimodelkan regresi logistik ordinal berganda. Untuk melihat apakah ada variabel yang berpengaruh terhadap model, perlu dilakukan uji signifikansi dengan menggunakan statistik uji rasio likelihood (G), selanjutnya untuk mengetahui variabel apa saja yang berpengaruh digunakan uji wald. Hasil estimasi parameter regresi logistik ordinal secara serentak disajikan pada tabel 3.2 berikut. Tabel 3.2 Taksiran Parameter Model Regresi logistik Ordinal Secara Serentak Predictor Coef SE Wald P_value Constan (1) -2,150 0,766 7,883 0,005 Constan (2) 0,299 0,763 0,154 0,695 X1 0,014 0,005 7,390 0,007 X2 0,396 0,293 1,833 0,176 X3 -0,843 0,176 23,026 0,000 X4_1 0,056 0,411 0,019 0,891 X4_2 -3,345 0,449 55,551 0,000 X5_1 0,356 0,179 3,941 0,047 X5_2 1,166 1,439 0,657 0,418 X6_1 0,299 0,628 0,226 0,634 X6_2 0,416 0,627 0,440 0,507 X7 0,310 0,214 2,103 0,147 X8_1 1,149 0,344 11,146 0,001 X8_2 -2,014 1,934 1,084 0,298 X8_3 -1,434 1,415 1,027 0,311 X8_4 1,786 0,432 17,132 0,000 X8_6 1,007 0,304 10,994 0,001 X8_7 1,282 0,463 7,673 0,006 X8_8 1,659 0,291 32,455 0,000 X8_9 1,016 0,258 15,558 0,000 X8_10 0,629 0,299 4,421 0,036 X9_1 -0,077 0,172 0,201 0,654 X9_2 -1,568 0,313 25,133 0,000 X9_3 -3,024 0,554 29,847 0,000 X10 -0,553 0,212 6,804 0,009 X11 0,024 0,004 31,504 0,000 X12 0,009 0,003 10,097 0,001
Nilai statistik uji G2 yang diperoleh dari model ini adalah 511,393 dengan derajat bebas sebesar 25. Dengan tingkat signifikan sebesar 5 persen (0,05) dan derajat bebas 25, didapatkan nilai χ 2 (0.05,25) pada tabel adalah 37.65 sehingga diperoleh nilai G2 > χ 2 . Berdasarkan nilai ini, maka keputusan kita adalah menolak Ho yang berarti minimal ada satu variabel prediktor yang berpengaruh terhadap variabel respon. 3.1.3 Pembentukan Regresi Logistik Ordinal Variabel yang Signifikan Pada tahapan ini akan dilakukan permodelan dengan menggunakan variabel prediktor yang signifikan terhadap respon. Hasil perhitungan uji statistik dan taksiran parameter disajikan pada tabel 3.3 berikut. Tabel 3.3 Taksiran Parameter Model Regresi Logistik Ordinal Signifikan Predictor Coef SE Wald P_value Const(1) -1,67 0,47 12,32 0,000 Const(2) 0,77 0,47 2,66 0,103 X1 0,01 0,01 7,84 0,005 X3 -0,92 0,17 28,84 0,000 X4_D1 0,04 0,41 0,01 0,918 X4_D2 -3,37 0,45 56,90 0,000 X5_D1 0,36 0,18 4,04 0,044 X5_D2 0,81 1,32 0,38 0,539 X8-1 1,11 0,34 10,58 0,001 X8_2 -1,78 1,92 0,86 0,354 X8_3 -1,55 1,41 1,21 0,272 X8_4 1,73 0,42 16,66 0,000 X8_6 0,98 0,30 10,44 0,001 X8_7 1,27 0,46 7,59 0,006 X8_8 1,64 0,29 32,17 0,000 X8_9 1,00 0,26 15,21 0,000 X8_10 0,58 0,30 3,83 0,050 X9_D1 -0,07 0,17 0,15 0,703 X9_D2 -1,52 0,31 23,94 0,000 X9-D3 -2,97 0,55 29,50 0,000 X10 -0,51 0,21 6,12 0,013 X11 0,02 0,00 31,27 0,000 X12 0,01 0,00 10,42 0,001 Model regresi logistik yang diperoleh di atas digunakan untuk mengklasifikasikan data testing. Untuk melihat kebaikan model regresi logistik ordinal dalam pengklasifikasian, digunakan tabel ketepatan klasifikasi dengan melihat ketepatan model dalam mengklasifikasikan data. Berikut ini adalah tabel ketepatan klasifikasi berdasarkan data training dan testing.
9
Tabel 3.4 Tabel Ketepatan Klasifikasi Pada Data Training Ketepatan Yˆ Kategori Total Klasifikasi 1 2 3 1 192 72 7 271 70.85 Y 2 89 130 54 273 47.63 3 10 52 194 256 75.78 Total 291 254 255 800 64.50 Berdasarkan tabel di atas terlihat bahwa ketepatan klasifikasi data training total sebesar 64,5 persen dengan ketepatan klasifikasi pada kategori satu sebesar 70,85 persen, kategori dua sebesar 47,63 persen dan kategori tiga sebesar 75,78 persen. Sedangkan tabel 3.5 berikut menunjukkan ketepatan klasifikasi pada data testing. Pada data testing, ketepatan klasifikasi menunjukkan hasil ketepatan sebesar 38 persen dengan ketepatan klasifikasi pada kategori tiga sebesar 100 persen. Tabel 3.5 Tabel Ketepatan Klasifikasi Pada Data Testing Yhat Ketepatan Kategori Total Klasifikasi 1 2 3 1 0 0 61 61 0 Y 2 0 0 63 63 0 3 0 0 76 76 100 Total 0 0 200 200 38 3.2 Pembentukan Model Jaringan Syaraf Tiruan Fungsi Radial Basis Pembentukan model menggunakan k-mean cluster digunakan untuk mendapatkan jumlah node pada hidden layer beserta nilai mean dan standart deviasi. Pada dasarnya belum ada patokan/standart untuk menentukan berapa jumlah kelas yang paling baik, sehingga dalam penelitian ini digunakan jumlah kelas sebanyak tiga. Dengan metode k-mean kluster dengan tiga kelas, diperoleh nilai mean dan standart deviasi sebagai berikut. Tabel 3.6 Nilai Mean Pada Masing-masing Kluster Prediktor Kluster 1 Kluster 2 Kluster 3 X1 28,823 26,564 41,003 X2 1,030 1,034 1,216 X3 1,189 1,420 1,635 X4 2,171 2,070 2,689 X5 1,299 1,289 1,596 X6 2,323 2,430 2,701 X7 2,000 1,000 1,021 X8 8,311 7,960 8,069 X9 1,756 1,620 1,883 X10 1,884 1,954 1,530 X11 13,610 16,805 14,287 X12 39,902 39,460 29,373
Tabel 3.7 Nilai Standart Deviasi Pada Masing-Masing Kluster Prediktor Kluster 1 Kluster 2 Kluster 3 X1 13,366 13,075 19,007 X2 0,172 0,181 0,412 X3 0,393 0,494 0,482 X4 0,527 0,375 0,477 X5 0,472 0,458 0,498 X6 0,575 0,527 0,459 X7 0,100 0,100 0,143 X8 2,873 2,791 2,507 X9 0,852 0,695 0,874 X10 0,321 0,209 0,500 X11 19,160 19,879 18,415 X12 30,599 28,540 25,941 Arsitektur dari model rbf dengan menggunakan tiga kelas hasil k-mean kluster disajikan pada gambar 1 berikut ini.
Gambar 1 Arsitektur Jaringan Syaraf Tiruan Fungsi Radial Basis Menggunakan Tiga Node Hasil K-mean Cluster
11
Program RBF digunakan untuk mendapatkan taksiran nilai output dengan menggunakan nilai mean dan standart deviasi yang sudah didapatkan dari proses k-mean kluster untuk menaksir matrik gausian (H) yang dilanjutkan dengan parameter/bobot lapisan output dengan metode Ordinary Least Square (OLS). Dalam program ini akan diperoleh matrik gaussian (H) pada data training, dan nilai bobot/taksiran parameter (W) pada masingmasing node. Berdasarkan hasil metode k-mean kluster, nilai matrik gaussian pada masing-masing node adalah sebagai berikut: 2 2 2 2 1 x3 − 1,19 x12 − 39, 90 x − 28, 82 x2 − 1, 03 = + + + H1 exp 1 ... 2 13, 37 30, 60 0.17 0, 39
2 2 2 2 1 x12 − 39, 46 x − 26, 56 x2 − 1, 03 x3 − 1, 42 = + + + H 2 exp 1 ... 2 13, 07 0,18 0, 49 28, 54 2 1 x − 41, 00 2 x − 1, 22 2 x − 1, 63 2 x12 − 29, 37 3 2 = + + + H 3 exp 1 ... 2 19, 01 0, 41 0, 48 25, 94
H = [ H1 → H 2 → H 3 ]
Berdasarkan matrik gausian yang diperoleh, maka tahapan selanjutnya adalah menghitung nilai bobot/parameter (W). Nilai bobot/taksiran parameter (W) ini didapatkan dengan metode OLS (Ordinary Least Square) yaitu dengan mengalikan matrik
( H * H ) * ( H * Y ) dimana H adalah matrik gaussian yang sudah kita peroleh sebelumnya, '
−1
'
sedangkan Y adalah nilai target. Berdasarkan perhitungan dengan metode OLS, diperoleh nilai taksiran parameter untuk setiap kategori yang disajikan pada tabel 3.8. Tabel 3.8 Nilai Taksiran Parameter Model RBF_Design Pada Data Training Kategori 1 Kategori 2 Kategori 3 9.4663 -2.9279 -6.5383 15.8247 0.6793 -16.5040 -24.4415 -19.0533 43.4949 0.3024 0.3471 0.3505 Untuk melihat keakuratan pengelompokan baik pada kategori satu, dua dan tiga digunakan nilai ketepatan klasifikasi seperti disajikan pada tabel 4.11 berikut. Tabel 3.9 Ketepatan Klasifikasi Pada Data Training dan Data Testing Ketepatan Data Ketepatan Data Kategori Training Testing (%) (%) 1 68.63 70.00 2 65.88 68.50 3 68.00 62.00 Total 67,48 67,08
Pada data training, metode RBF dapat melakukan pengelompokan dengan tepat pada kategori satu sebesar 68.63 persen, sedangkan pada kategori dua hanya mampu melakukan pengelompokan dengan tepat sebesar 65.88 persen dan pada kategori tiga sebesar 68 persen. Secara keseluruhan, model telah mampu memberikan tingkat akurasi sebesar 67,48 persen. Pada data testing, keakuratan pengelompokan pada kategori satu sebesar 70 persen, pada kategori dua sebesar 68,5 persen dan hanya mampu melakukan mengklasifikasikan dengan pada tepat kategori tiga sebesar 62 persen. Model yang terbentuk telah mampu memberikan tingkat akurasi sebesar 67,08 persen. 3.3 Pemilihan Metode Terbaik Pemilihan metode terbaik antara regresi logistik dengan jaringan syaraf fungsi radial basis function dilakukan dengan melihat ketepatan klasifikasi pada masing-masing kategori variabel respon. Berdasarkan uraian di atas diketahui bahwa dengan menggunakan metode regresi logistik, ketepatan klasifikasi data data testing adalah sebesar 38 persen sedangkan ketepatan klasifikasi data testing pada metode RBF adalah sebesar 67,08 persen. Berdasarkan perhitungan di atas bisa kita simpulkan bahwa metode RBF memberikan tingkat akurasi yang lebih baik daripada metode regresi logistik ordinal. Untuk lebih meyakinkan metode mana yang lebih baik digunakan, maka dilakukan 10-fold cross validasi.
Tabel 3.10 Hasil 10-Fold Cross Validasi Pada Data Testing Percobaan Regresi Logistik RBF 1 25,50 68,19 2 31,00 67,92 3 37,50 69,59 4 34,00 67,19 5 38,00 67,09 6 27,50 76,74 7 34,00 69,19 8 35,50 67,03 9 36,50 67,38 10 35,50 67,33 Rata-rata 33,50 68,77 Pada tabel 3.10 terlihat bahwa dengan adanya sepuluh kali percobaan, pada setiap percobaan menujukkan bahwa tingkat akurasi metode radial basis function lebih baik daripada metode regresi logistik ordinal. Hasil dari 10 fold-validasi menunjukkan rata-rata tingkat akurasi metode regresi logistik ordinal sebesar 33,50 persen dan metode radial basis function sebesar 68,77 persen. Berdasarkan simulasi perhitungan di atas bisa disimpulkan bahwa metode radial basis function dengan pendekatan k-mean cluster lebih baik daripada metode regresi logistik ordinal.
13
4. Kesimpulan Dari penelitian ini bisa ditarik beberapa kesimpulan sebagai berikut: 1. Dengan metode regresi logistik ordinal diketahui variabel yang berpengaruh terhadap respon yaitu variabel X1, X2, X3, X4_2, X5_1, X8_1, X8_4, X8_6, X8_7, X8_8, X8_9, X8_10, X9_2, X9_3, X10, X11, dan X12 2. Permodelan menggunakan metode radial basis function dengan pendekatan k-mean cluster memberikan tingkat akurasi yang lebih baik dari pada metode regresi logistik ordinal dimana ketepatan klasifikasi pada data testing dengan metode RBF sebesar 67.08 dan ketepatan klasifikasi metode regresi logistik ordinal sebesar 38 persen. 3. Dengan 10 – fold cross validasi diperoleh hasil rata-rata tingkat akurasi metode regresi logistik ordinal sebesar 33,50 persen sedangkan tingkat akurasi metode radial basis function dengan pendekatan k-mean cluster adalah sebesar 68,77 persen. Berdasarkan perhitungan ini bisa diambil kesimpulan bahwa metode radial basis function dengan pendekatan k-mean cluster merupakan metode yang lebih baik dibandingkan regresi logistik ordinal. Daftar Pustaka [1] Badan Pusat Statistik, in : Pengembangan Kegiatan Analisis, Indikator Kemiskinan, Dan IPM: Antara Pusat dan Daerah, BPS, 2000 [2] Word Bank, in : Era Baru dalam Pengentasan Kemiskinan di Indonesia, World Bank, Jakarta, 2006. [3] Ali, I and Pernia, EM, in : Infrastructure and Poverty Reduction : What is The Connection? ERD Policy Brief No. 13 Economics and Research Department. ADB, 2003 [4] Hari Susanto and Anas Saidi, in : Klasifikasi Masyarakat Miskin, Puslitbang Ekonomi dan Pembangunan Lembaga Ilmu Penelitian Indonesia (PEP-LIPI), Jakarta, 1998 [5] Badan Pusat Statistik, in: Pendataan Program Perlindungan Sosial 2008, Pedoman Pencacah, BPS, Jakarta, 2008 [6] Hosmer, D.W., and Lemeshow. S, In : Applied Logistic Regression. John Willey, New York, 1989 [7] Agresti, Alan, in : Categorical Data Analysis, John Wiley and Sons, Inc, New York, 1990. [8] Johnson, R. A., Dan Wichern, D. W., (1992), Applied Multivariate Statistical Analysis, Prentice Hall, New Jersey. [9] Sutijo, Brodjol., Subanar and Suryo Guritno, in: Input-Nodes Link Selection on Radial Basis Funtion Neural Network, MIPA, 16(1), Januari 2006 [10] Kusumadewi, Sri, in : Membangun Jaringan Syaraf Tiruan Menggunakan Matlab & Exel Link, Penerbit Graha Ilmu, Yogyakarta, 2004.