PENERAPAN ALGORITMA GENETIK SEBAGAI METODE ALTERNATIF PENDUGAAN PARAMETER REGRESI LOGISTIK DAN BETA-BINOMIAL
NANDA PUSPITA
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA* Dengan ini saya menyatakan bahwa skripsi berjudul Penerapan Algoritma Genetik sebagai Metode Alternatif Pendugaan Parameter Regresi Logistik dan Beta-binomial adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juli 2014 Nanda Puspita NIM G14100004
ABSTRAK NANDA PUSPITA. Penerapan Algoritma Genetik sebagai Metode Alternatif Pendugaan Parameter Regresi Logistik dan Beta-binomial. Dibimbing oleh AGUS MOHAMMAD SOLEH dan BAGUS SARTONO. Regresi logistik umumnya digunakan dalam penelitian untuk melihat hubungan suatu proporsi dengan satu atau banyak peubah. Pada regresi logistik, ketika ragam dari peubah respon lebih besar dari yang seharusnya (overdispersi), perlu dilakukannya modifikasi pada model atau pendugaan parameter. Salah satu alternatif yang dapat digunakan adalah regresi beta-binomial. Pendugaan parameter logistik dan beta-binomial umumnya dilakukan dengan memaksimumkan fungsi kemungkinan melalui algoritma Iteratively Reweighted Least Square (IRLS). Namun algoritma tersebut membutuhkan banyak informasi tambahan seperti inisialisasi awal dan diferensial fungsi. Penelitian ini bertujuan untuk mengkaji penerapan algoritma genetik sebagai metode alternatif untuk pendugaan parameter regresi logistik dan beta-binomial. Hasil yang diperoleh menunjukkan bahwa algoritma genetik dapat menghasilkan dugaan yang mendekati hasil IRLS bahkan dengan nilai log-kemungkinan yang lebih baik. Kata kunci: Algoritma Genetik, Beta-binomial, Logistik, Parameter
ABSTRACT NANDA PUSPITA. Application of Genetic Algorithm as an Alternative Method for Estimating Logistic Regression and Beta-binomial Parameters. Supervised by AGUS MOHAMMAD SOLEH and BAGUS SARTONO. Logistic regression is commonly used in research to assess the relationship of proportion with one or many variables. In logistic regression, when variance of a binomial response variable is larger than it should be (overdispersion), either the model or the parameter estimation needs to be modified. An alternative that can be applied is beta-binomial regression. Parameter estimation for logistic and betabinomial regression generally done by maximizing the likelihood function through the Iteratively Reweighted Reweighted Least Square (IRLS) algorithm. However, this algorithm requires much auxiliary information to work properly such as initial domain and differential. This study is purposed to examine the application of genetic algorithm as an alternative method for estimating logistic and beta-binomial regression parameters. The result shows that genetic algorithm can generate solutions that are close to IRLS even with better log-likelihood value. Keywords: Beta-binomial, Genetic Algorithm, Logistic, Parameter
PENERAPAN ALGORITMA GENETIK SEBAGAI METODE ALTERNATIF PENDUGAAN PARAMETER REGRESI LOGISTIK DAN BETA-BINOMIAL
NANDA PUSPITA
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014
Judul Skripsi : Penerapan Algoritma Genetik sebagai Metode Alternatif Pendugaan Parameter Regresi Logistik dan Beta-binomial Nama : Nanda Puspita NIM : G14100004
Disetujui oleh
Agus M Soleh, SSi, MT Pembimbing I
Dr Bagus Sartono, MSi Pembimbing II
Diketahui oleh
Dr Ir Anang Kurnia, MSi Ketua Departemen
Tanggal Lulus:
PRAKATA Puji dan syukur penulis panjatkan kepada Allah SWT karena hanya dengan lindungan, rahmat, dan karunia-Nya lah penulis telah menyelesaikan karya ilmiah yang berjudul Penerapan Algoritma Genetik sebagai Metode Alternatif Pendugaan Parameter Regresi Logistik dan Beta-binomial. Terselesainya penyusunan karya ilmiah ini tidak lepas dari dukungan , motivasi, saran, dan kerja sama dari berbagai pihak. Oleh karena itu, penulis mengucapkan terima kasih kepada: 1. Bapak Agus M Soleh selaku ketua komisi pembimbing yang telah besabar dalam memberikan nasihat kepada penulis untuk dapat menghasilkan karya ilmiah yang baik. 2. Bapak Bagus Sartono selaku anggota komisi pembimbing atas kesempatan yang telah diberikan kepada penulis untuk dapat mengembangkan diri pada topik yang penulis teliti. 3. Rekan-rekan statistika angkatan 2009 dan 2010, terutama Septian Rahardiantoro, Raedi Hermawan, Frisca Rizky Ananda, dan Amri Luthfi Najih yang telah membantu penulis dalam diskusi untuk menyelesaikan karya ilmiah ini. 4. Staf Tata Usaha Departemen Statistika atas bantuannya dalam kelancaran administrasi. 5. Bapak, ibu, serta seluruh keluarga, atas segala doa dan dukungannya kepada penulis. Semoga karya ilmiah ini bermanfaat.
Bogor, Juli 2014 Nanda Puspita
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN
1
Latar Belakang
1
Tujuan Penelitian
1
METODOLOGI
1
Data
1
Metode
2
Algoritma Genetik untuk Pendugaan Parameter Regresi Logistik
2
Algoritma Genetik untuk Pendugaan Parameter Regresi Beta-binomial
4
Implementasi Algoritma Genetik Pada Kasus Riil
5
HASIL DAN PEMBAHASAN
6
Algoritma Genetik untuk Pendugaan Parameter Regresi Logistik
6
Algoritma Genetik untuk Pendugaan Parameter Regresi Beta-binomial
7
Implementasi Algoritma Genetik Pada Kasus Riil
10
SIMPULAN
11
DAFTAR PUSTAKA
11
LAMPIRAN
12
RIWAYAT HIDUP
16
DAFTAR TABEL 1 Dugaan terbaik pendugaan parameter regresi logistik dengan algoritma genetik pada kelima ulangan 2 Nilai asli parameter regresi logistik beserta dugaan algoritma genetik dan IRLS 3 Dugaan terbaik pendugaan parameter regresi beta-binomial dengan algoritma genetik pada kelima ulangan 4 Nilai asli parameter regresi beta-binomial beserta dugaan algoritma genetik dan IRLS 5 Dugaan parameter dan rasio odd regresi beta-binomial pada model I dan model II
7 7 8 9 10
DAFTAR GAMBAR 1 Alur fokus utama penelitian 2 Nilai fitness terbaik untuk kelima ulangan pada pendugaan parameter regresi logistik 3 Nilai fitness terbaik untuk kelima ulangan pada pendugaan parameter regresi bet-binomial
2 6 8
DAFTAR LAMPIRAN 1 Program algoritma genetik untuk pendugaan parameter regresi logistik pada R 2 Program algoritma genetik untuk pendugaan parameter regresi betabinomial pada R
12 14
PENDAHULUAN Latar Belakang Regresi logistik merupakan salah satu alat analisis yang populer digunakan dalam masalah pemodelan dengan respon biner. Pendugaan parameter regresi logistik umumnya dilakukan dengan memaksimumkan fungsi kemungkinan melalui algoritma Iteratively Reweighted Least Square (IRLS) yang merupakan penurunan Newton-Raphson dengan menggunakan metode Fisher scoring. Namun dalam perhitungannya, algoritma ini membutuhkan banyak informasi tambahan seperti inisialisasi awal dan diferensial fungsi. Di sisi lain, ketika ragam dari peubah respon lebih besar dari yang seharusnya (overdispersi), perlu dilakukannya modifikasi pada model ataupun pada pendugaan parameter logistik. Salah satu penyebab overdispersi adalah beragamnya peluang sukses pada beberapa objek dalam suatu kondisi yang sama (Collet 2003), sehingga alternatif yang dapat digunakan adalah model betabinomial. Bentuk fungsi kemungkinan untuk beta-binomial tidaklah praktis karena mengandung fungsi gamma, sehingga proses pendugaan parameter dengan IRLS akan semakin rumit. Dengan adanya berbagai kesulitan tersebut, maka penelitian ini berusaha untuk memberikan metode alternatif dengan menerapkan algoritma genetik. Algoritma genetik dikenal sebagai metode metaheuristik untuk optimasi global dan mampu menangani tugas-tugas komputasi yang besar. Algoritma ini meniru proses evolusi mahluk hidup dan tidak memerlukan banyak informasi tambahan. Selain itu, algoritma genetik dapat melompati nilai optimum lokal, sehingga cocok digunakan ketika fungsi objektif memiliki bentuk permukaan yang kompleks (Haupt R dan Haupt S 2004).
Tujuan Penelitian Tujuan dari penelitian ini adalah mengkaji kegunaan algoritma genetik sebagai metode alternatif pendugaan parameter regresi logistik dan beta-binomial.
METODOLOGI Data Penelitian ini menggunakan data simulasi dan data perkecambahan yang diperoleh dari jurnal milik Crowder (1978). Data simulasi yang digunakan adalah data yang memenuhi kriteria untuk pemodelan regresi logistik dan data yang mengalami masalah overdispersi. Data perkecambahan merupakan data percobaan faktorial 2 faktor yang membandingkan 2 tipe bibit (O. Aegyptiaca 75 dan O. Aegyptiaca 73) dan 2 jenis ekstrak akar tanaman (buncis dan ketimun). Terdapat 5 atau 6 ulangan untuk tiap perlakuan dan masing-masing ulangan tersebut terdiri atas jumlah bibit yang beragam, antara 4 hingga 81. Respon yang diukur dari
2 percobaan tersebut adalah proporsi bibit yang berkecambah dengan total observasi sebanyak 21 pengamatan (Crowder 1978).
Metode Algoritma genetik (genetic algorithm) merupakan salah satu metode pendekatan yang digunakan untuk mencari solusi dari suatu masalah pengoptimuman. Prinsip dasar algoritma ini meniru proses evolusi yang terjadi pada mahluk hidup, sehingga istilah yang digunakan menyerap istilah yang ada pada ilmu biologi. Sebagai contoh, istilah individu merepresentasikan solusi yang ingin diperoleh sedangkan fungsi fitness merujuk pada fungsi objektif (Haupt R dan Haupt S 2004). Penerjemahan algoritma genetik ke dalam bentuk rancangan dapat bersifat subjektif dan bergantung pada masalah yang dihadapi. Proses analisis yang digunakan dalam penelitian ini secara umum terdiri atas tiga poin utama yang dilakukan berdasarkan alur seperti pada Gambar 1 dengan perangkat lunak yang digunakan adalah R 3.0.3. Pengembangan algoritma genetik untuk pendugaan parameter regresi logistik
Pengembangan algoritma genetik untuk pendugaan parameter regresi beta-binomial
Implementasi algoritma genetik pada kasus riil Gambar 1 Alur fokus utama penelitian
Algoritma genetik untuk pendugaan parameter regresi logistik Implementasi algoritma genetik untuk pendugaan parameter regresi logistik dilakukan melalui : 1. Membangkitkan data simulasi yang memenuhi kriteria pemodelan regresi logistik dengan algoritma : a) Membangkitkan data untuk peubah penjelas. Peubah yang digunakan terdiri dari peubah numerik dan kategorik. Peubah dibangkitkan menggunakan sebaran eksponensial(1) untuk mewakili peubah numerik kontinu dan dibangkitkan dengan mengambil unsur dari himpunan {51, 52, ..., 100} secara acak dengan peluang seragam sebagai perwakilan peubah numerik diskret. Peubah kategorik menggunakan tiga kategori yang dibangkitkan dengan mengambil unsur dari himpunan {1, 2, 3} yang kemudian diubah menjadi dua peubah dummy. Peubah merupakan
3 peubah dummy untuk kategori 2, dan merupakan peubah dummy untuk kategori 3. Jumlah observasi yang digunakan sebanyak 100. b) Menentukan parameter regresi logistik ( ) . Untuk melihat kesesuaian pendugaan parameter oleh algoritma genetik, nilai parameter yang digunakan terdiri dari bilangan positif dan negatif. Nilai parameter tersebut yaitu = −2, = −0.5, = 0.05, = −2, dan = 1.5. c) Menghitung dengan persamaan logistik, = 1, 2, ..., 100. d) Membangkitkan data untuk peubah m (total kejadian). Nilai untuk mi dibangkitkan dengan mengambil unsur dari himpunan {11, 12, ..., 30} dengan peluang seragam. e) Membangkitkan data yang menyebar Binomial ( , ). 2. Melakukan pendugaan parameter regresi logistik menggunakan algoritma genetik. Metode yang digunakan adalah metode pendugaan kemungkinan maksimum. Log fungsi kemungkinan bagi β ditulis sebagai n
L(β) =
[ri log πi +(mi − ri ) log(1 − πi )]
i = 1
dengan ri = jumlah kejadian sukses ke-i, mi = total kejadian ke-i, n = banyaknya observasi, dan persamaan logistik 1 πi = ; i = 1, 2, …, n 1+exp [ − (β0 +β1 x1i +…+βk xki )] mi dapat diabaikan karena tidak terlalu berperan Konstanta ∑ni log r i (McCullagh dan Nelder 1989). Berdasarkan tahapan yang disebutkan oleh Haupt R dan Haupt S (2004), modifikasi rancangan algoritma genetik yang digunakan untuk pendugaan parameter regresi logistik adalah sebagai berikut : a) Pendefinisian masalah Solusi yang ingin diperoleh adalah dugaan parameter regresi logistik yang dapat memaksimumkan log fungsi kemungkinan, sehingga bentuk individu yang akan digunakan berupa vektor β0 | β1 | … | βk dengan log fungsi kemungkinan sebagai fungsi fitness (fungsi objektif). Masing-masing dugaan parameter selanjutnya akan disebut sebagai gen. b) Pembangkitan populasi awal Populasi merupakan himpunan dari beberapa individu. Sebagai inisial, populasi awal menggunakan N individu yang nilai-nilainya dibangkitkan secara acak. Nilai bagi βi (i = 1, 2,…, k) akan dibangkitkan menggunakan sebaran seragam (−2.5⁄xi , 2.5⁄xi ), sedangkan nilai bagi diperoleh melalui persamaan ∑r/∑m β0 = log − β1 ̅ − … − βk ̅ 1 − ∑r/∑m Penelitian ini menggunakan nilai N = 10000. Apabila populasi awal telah dibangkitkan, maka setiap individu akan dihitung nilai fitness-nya. c) Seleksi alam Proses seleksi alam dilakukan dengan mengambil individu sebanyak Nkeep yang memiliki nilai fitness terbesar. Individu yang tidak lolos seleksi kemudian akan diabaikan. Jumlah individu yang lolos seleksi ditetapkan sebanyak 5 individu. d) Kawin silang (crossover)
4 Proses kawin silang dilakukan kepada setiap kombinasi pasangan dari N Nkeep tetua sehingga menghasilkan individu baru sebanyak C2 keep . Metode yang digunakan adalah kombinasi linear. Untuk pasangan individu ke-i dan ke-j, individu baru diperoleh dengan persamaan Indbaru = γi Indi + (1 − γi ) Indj dengan keterangan : Indbaru = individu baru yang terbentuk Indi = individu ke-i; i = 1, 2, ..., Nkeep = individu ke-j; j = 1, 2, ..., Nkeep ; i ≠ j Indj γi
1⁄fitnessi
= 1⁄fitness +1 i
fitnessj
fitnessi = nilai fitness untuk individu ke-i Fungsi 1⁄fitness digunakan karena log-kemungkinan bernilai negatif. e) Mutasi gen Agar generasi baru yang diperoleh masih memiliki sifat kuat tetuanya, maka sebelum dilakukan mutasi, anak hasil kawin silang dan tetua hasil seleksi digabungkan kembali. Kejadian mutasi yang terjadi pada setiap gen diasumsikan menyebar Bernoulli dengan peluang mutasi sebesar Pmut . Nilai Pmut umumnya bernilai sangat kecil. Pada penelitian ini, peluang mutasi ditentukan sebesar 0.05. Gen yang mengalami mutasi selanjutnya akan mengalami pergantian nilai melalui persamaan N(0, 1) genbaru = genlama × 1+ 10 f) Pemberhentian proses Proses algoritma genetik meliputi proses iterasi yang akan berhenti apabila suatu kriteria tertentu terpenuhi. Dalam algoritma ini, proses iterasi akan berhenti jika jumlah iterasi yang dilakukan telah mencapai suatu nilai tertentu. Jumlah iterasi yang digunakan adalah 2500 iterasi. Apabila jumlah iterasi yang diinginkan belum tercapai, maka proses akan kembali pada proses seleksi alam. 3. Membandingkan hasil algoritma genetik dengan algoritma IRLS.
Algoritma genetik untuk pendugaan parameter regresi beta-binomial Implementasi algoritma genetik untuk pendugaan parameter regresi betabinomial dilakukan melalui tahapan berikut: 1. Membangkitkan data simulasi logistik yang mengalami masalah overdispersi dengan algoritma: a) Membangkitkan data untuk peubah penjelas dan peubah m. Data yang digunakan adalah data peubah pada simulasi untuk kasus logistik biasa. b) Menentukan parameter regresi ( ) dan parameter overdispersi (ϕ). Nilai parameter regresi menggunakan nilai yang sama seperti pada data simulasi logistik biasa, sedangkan parameter overdispersi menggunakan nilai ϕ = 0.2. c) Menghitung dengan persamaan logistik, = 1, 2, ..., 100. d) Membangkitkan yang menyebar Beta(ai , bi ) dengan
5 ai = πi (1 − ϕ) / ϕ dan bi = (1 − πi ) (1 − ϕ) /ϕ e) Membangkitkan data yang menyebar Binomial ( , ). 2. Melakukan pendugaan parameter regresi beta-binomial melalui algoritma genetik. Metode yang digunakan adalah metode pendugaan kemungkinan maksimum dengan log fungsi kemungkinan beta-binomial tanpa konstanta mi ∑ni log r dapat ditulis sebagai berikut (Hinde dan Demetrio 2010) i n
{ log Γ(cπi +ri ) − log Γ(cπi ) + log Γ[c(1 − πi )+ mi − ri ]
L(π,c)= i =1
− log Γ[c(1 − πi )] − log Γ(mi +c)+ log Γ(c)} dengan ϕ = 1/(c+1) dan merupakan persamaan logistik. Parameter yang akan diduga dari model regresi beta-binomial adalah parameter overdispersi (ϕ) dan koefisien regresi (β). Secara umum, algoritma genetik yang digunakan untuk pendugaan parameter regresi beta-binomial tidak jauh berbeda dengan kasus logistik biasa. Perbedaan hanya terdapat pada fungsi fitness dan sedikit penyesuaian karena adanya penambahan dugaan untuk parameter overdispersi. Penyesuaian tersebut terdapat pada tahap: a) Pendefinisian masalah Individu yang digunakan berupa vektor ϕ | β0 | β1 |… | βk dengan fungsi yang ingin dimaksimumkan (fungsi fitness) adalah log fungsi kemungkinan beta-binomial. b) Pembangkitan populasi awal Nilai ϕ dibangkitkan menyebar seragam(0, 1) sedangkan nilai bagi β dibangkitkan dengan cara yang sama seperti pada pendugaan parameter regresi logistik. c) Mutasi gen Nilai baru bagi ϕ diperoleh melalui persamaan genbaru = genlama ×seragam(0.8, 1.2) Namun, apabila nilai pengganti tersebut melebihi angka satu, maka nilai mutasi akan dibangkitan menggunakan sebaran seragam(0, 1). 3. Membandingkan hasil algoritma genetik dengan algoritma IRLS.
Implementasi algoritma genetik pada kasus riil 1. Pendugaan parameter logistik. 2. Pengecekan masalah overdispersi menggunakan pearson’s chi-squared statistic yang didefinisikan sebagai n (ri − mi πi )2 2 X= mi πi (1 − πi ) i=1
Statistik tersebut menyebar chi-square dengan derajat bebas n−k−1. Apabila nilai rasio pearson’s chi-squared statistic dengan derajat bebasnya melebihi satu, maka diindikasikan bahwa model logistik yang dibentuk mengalami masalah overdispersi (Hosmer dan Lemeshow 2000). 3. Pendugaan parameter regresi beta-binomial jika terjadi masalah overdispersi. 4. Interpretasi koefisien dugaan parameter regresi.
6
HASIL DAN PEMBAHASAN Algoritma Genetik untuk Pendugaan Parameter Regresi Logistik Hasil pengembangan algoritma genetik untuk pendugaan parameter regresi logistik dapat dilihat pada Lampiran 1. Gambar 2 menampilkan plot nilai fitness (log-kemungkinan) terbaik dari tiap iterasi untuk 5 kali pengulangan. Sebagai pembanding, diberikan pula nilai log-kemungkinan final yang dihasilkan oleh IRLS. Hasil yang diperoleh menunjukkan bahwa nilai fitness terbaik dari kelima ulangan memang berbeda-beda ketika awal proses iterasi. Hal ini dikarenakan populasi awal yang digunakan dibangkitkan secara acak. Namun seiring bertambahnya iterasi, nilai fitness terbaik dari kelima ulangan tersebut semakin konvergen menuju satu nilai tertentu dan mendekati nilai log-kemungkinan final IRLS. Hasil tersebut memperlihatkan bahwa algoritma genetik yang digunakan memungkinkan akan memberikan suatu hasil yang konvergen, walaupun nilai tersebut hanya berupa pendekatan nilai optimum. Hasil pendugaan parameter regresi logistik menggunakan algoritma genetik diringkas pada Tabel 1. Solusi yang ditampilkan adalah individu terbaik dari populasi akhir pada setiap ulangan yang dilakukan. Berdasarkan hasil tersebut nilai log-kemungkinan yang diberikan memang berfluktuasi namun sangat kecil. Begitu pun dengan dugaan parameter yang diberikan, sehingga dapat dikatakan bahwa algoritma genetik untuk pendugaan parameter regresi logistik bersifat repeatable (dapat diulang). Pada Tabel 2, diberikan nilai parameter asli dan juga dugaan hasil algoritma IRLS untuk dijadikan pembanding. Dugaan parameter algoritma genetik yang digunakan adalah hasil ulangan ke-5 yang memiliki nilai log-kemungkinan terbaik. Apabila dibandingkan dengan nilai parameter asli, algoritma genetik memberikan dugaan yang cukup baik. Nilai yang diberikan pun tidak terlalu jauh dan memiliki
Gambar 2 Nilai fitness terbaik untuk kelima ulangan pada pendugaan parameter regresi logistik
7 Tabel 1 Dugaan terbaik pendugaan parameter regresi logistik dengan algoritma genetik pada kelima ulangan Parameter
Logkemungkinan
Dugaan algoritma genetik Ulangan 1
Ulangan 2
Ulangan 3
Ulangan 4
Ulangan 5
−1.8381 −0.6254 0.0498 −2.1063 1.6049
−1.8185 −0.6263 0.0496 −2.1044 1.6022
−1.8252 −0.6256 0.0497 −2.1076 1.6033
−1.8437 −0.6254 0.0499 −2.1066 1.6054
−1.8462 −0.6251 0.0499 −2.1060 1.6056
−884.6644
−884.6690
−884.6666 −884.6638 −884.6637
Tabel 2 Nilai asli parameter regresi logistik beserta dugaan algoritma genetik dan IRLS Parameter
Nilai parameter asli −2.00 −0.50 0.05 −2.00 1.50 Log-kemungkinan
Dugaan algoritma genetik Dugaan IRLS −1.8462 −1.8536 −0.6251 −0.6263 0.0499 0.0501 −2.1060 −2.1104 1.6056 1.6037 −884.6637 −884.6634
tanda yang sama. Apabila dibandingkan dengan algoritma IRLS, perbedaan nilai log-kemungkinan keduanya sangatlah kecil. Dugaan parameter yang diberikan pun tidak berbeda sangat jauh. Untuk melihat keakuratan pendugaan parameter dapat menggunakan rata-rata dari absolut rasio selisih dugaan parameter dengan nilai parameter aslinya. Semakin kecil nilai yang dihasilkan, maka pendugaan semakin akurat. Nilai yang diperoleh untuk dugaan algoritma genetik adalah sebesar 0.0905, sedangkan untuk dugaan IRLS adalah 0.0904. Hal tersebut mengindikasikan bahwa hasil dugaan kedua algoritma hampir sama akuratnya, sehingga dapat dikatakan bahwa algoritma genetik dapat dijadikan sebagai pendekatan baru untuk pendugaan parameter regresi logistik.
Algoritma Genetik untuk Pendugaan Parameter Regresi Beta-Binomial Hasil pengembangan algoritma genetik untuk pendugaan parameter regresi beta-binomial diberikan pada Lampiran 2. Untuk melihat hasil proses konvergen dugaan algoritma genetik pada pendugaan parameter regresi beta-binomial, diberikan plot nilai fitness terbaik untuk setiap iterasi pada Gambar 3. Sama halnya dengan kasus logistik, pendugaan dengan algoritma genetik dilakukan sebanyak 5 kali dan diberikan pula nilai log-kemungkinan final hasil algoritma
8
Gambar 3 Plot nilai fitness terbaik untuk kelima ulangan pada pendugaan parameter regresi beta-binomial Tabel 3 Dugaan terbaik pendugaan parameter regresi beta-binomial dengan algoritma genetik pada kelima ulangan Parameter
Log-kemungkinan beta-binomial
Dugaan Algoritma Genetik Ulangan 1 Ulangan 2 Ulangan 3 Ulangan 4 Ulangan 5 0.1775 −1.9751 −0.4461 0.0488 −1.5425 1.3479
0.1775 −2.0110 −0.4471 0.0494 −1.5444 1.3471
0.1774 −1.9920 −0.4473 0.0491 −1.5474 1.3441
−892.379
−892.376
−892.377
0.1775 −1.9796 −0.4468 0.0489 −1.5439 1.3470
0.1774 −2.0083 −0.4472 0.0493 −1.5441 1.3474
−892.378 −892.376
IRLS sebagai pembanding. Berdasarkan Gambar tersebut, nilai fitness terbaik pada setiap iterasi untuk kelima ulangan tidak pernah turun secara signifikan dan konvergen menuju suatu nilai tertentu seiring bertambahnya iterasi yang dilakukan. Bahkan nilai tersebut lebih maksimum jika dibandingkan dengan hasil final yang diberikan oleh algoritma IRLS. Dengan adanya proses mutasi yang bersifat acak pada algoritma genetik dapat memungkinkan hasil yang diperoleh lebih baik dibandingkan dengan algoritma IRLS. Tabel 3 merupakan ringkasan hasil pendugaan parameter yang dilakukan oleh kelima ulangan algoritma genetik. Nilai dugaan parameter yang diberikan pada tiap ulangan memang bervariasi namun tidak terlalu jauh dan memiliki tanda yang sama. Dari semua hasil dugaan tersebut, nilai log-kemungkinan yang diberikan pun cenderung sama, sehingga dapat disimpulkan bahwa tidak hanya untuk pendugaan parameter regresi logistik, namun untuk pendugaan parameter regresi beta-binomial pun algoritma genetik bersifat repeatable.
9 Tabel 4 Nilai asli parameter regresi beta-binomial beserta dugaan algoritma genetik dan IRLS Parameter Nilai parameter asli Dugaan Algoritma Genetik Dugaan IRLS 0.20 0.1775 0.1789 −2.00 −2.0110 −1.9015 −0.50 −0.4471 −0.4307 0.05 0.0494 0.0476 −2.00 −1.5444 −1.5271 1.50 1.3471 1.3121 Log-kemungkinan beta-binomial
−892.376
−892.411
Pada Tabel 4 diberikan nilai dugaan parameter terbaik dari algoritma genetik beserta dugaan IRLS dan nilai parameter asli. Apabila dibandingkan dengan nilai parameter asli, dugaan algoritma genetik masih dapat dikatakan cukup baik. Bahkan nilai tersebut secara umum lebih mendekati dibandingkan dengan dugaan oleh algoritma IRLS. Hal ini dapat dilihat melalui nilai rata-rata dari absolut rasio selisih dugaan parameter dengan nilai parameter aslinya. Nilai yang dihasilkan oleh dugaan algoritma genetik adalah 0.0942. Nilai tersebut lebih kecil dibandingkan dengan IRLS yaitu sebesar 0.1171. Selain itu, nilai logkemungkinan hasil perhitungan algoritma genetik menunjukkan hasil yang lebih baik, sehingga dapat dikatakan bahwa algoritma genetik dapat dijadikan sebagai alternatif baru untuk pendugaan parameter regresi beta-binomial. Berdasarkan kedua kajian sebelumnya, algoritma genetik memang membutuhkan iterasi yang cukup banyak untuk menghasilkan nilai logkemungkinan sebaik hasil yang diperoleh menggunakan IRLS. Berdasarkan Gambar 2 dan 3 untuk data simulasi yang digunakan, perkiraan iterasi minimal yang dibutuhkan algoritma genetik untuk menghasilkan solusi yang baik adalah 1500 iterasi untuk pendugaan parameter regresi logistik dan 1800 untuk pendugaan parameter regresi beta-binomial. Apabila menggunakan algoritma IRLS, iterasi yang dibutuhkan hanya 4 iterasi untuk kasus logistik dan 427 iterasi untuk kasus beta-binomial. Dari sisi waktu, dengan penggunaan komputer yang memiliki spesifikasi prosesor 2.4 GHz, RAM 4 GB, dan sistem operasi 32-bit, rata-rata waktu yang dibutuhkan algoritma genetik adalah 12.81 detik untuk pendugaan parameter regresi logistik dan 26.39 detik untuk pendugaan parameter regresi beta-binomial, sedangkan IRLS membutuhkan waktu 0.06 detik untuk regresi logistik dan 0.03 detik untuk regresi beta-binomial. Namun di sisi lain, algoritma genetik memiliki beberapa kelebihan yaitu perhitungan yang digunakan terbilang sederhana apabila dibandingkan dengan IRLS yang memerlukan proses penurunan log fungsi kemungkinan dan fungsi penghubung terlebih dahulu. Adanya proses mutasi pada algoritma genetik memungkinkan hasil yang diperoleh lebih baik dibandingkan dengan hasil pendugaan IRLS. Algoritma genetik juga sangat cocok digunakan ketika peubah penjelas yang digunakan sangat banyak. Selain itu, fungsi yang ingin dioptimumkan dapat diubah sesuai dengan keinginan peneliti tanpa perlu mengganti rancangan lainnya ataupun menurunkan perhitungan rumus. Misalkan
10 saja peneliti ingin membuat model yang mengoptimumkan keakuratan pendugaan, maka hal yang perlu dilakukan hanyalah mengganti fungsi fitness yang ada dengan fungsi untuk menghitung presisi.
Implementasi Algoritma Genetik Pada Kasus Riil Terdapat dua model yang akan dibangun berdasarkan data perkecambahan yang digunakan. Model I yang dibangun dengan 2 peubah faktor utama, tipe bibit (X1) dan jenis ekstrak akar tanaman (X2), serta model II yang dibangun dari 2 peubah faktor utama dan interaksinya (X3). Untuk penelitian ini, peubah faktor utama dibentuk menjadi peubah dummy dengan tipe bibit O. Aegyptiaca 73 dan ekstrak tanaman buncis sebagai acuan referensi. Kemudian dilanjutkan dengan pendugaan parameter regresi logistik menggunakan algoritma genetik dengan input N = 10000, Nkeep= 10, Pmut = 0.05, dan iterasi = 2000. Sebelum melakukan interpretasi dugaan parameter, terlebih dahulu dilakukan pengecekan terhadap goodness of fit dengan melihat rasio antara statistik uji pearson dengan derajat bebasnya. Hasil perhitungan dengan algoritma genetik menghasilkan rasio pearson dengan derajat bebasnya sebesar 2.1281 untuk model I dan 1.8618 untuk model II. Kedua nilai tersebut lebih besar dan memiliki selisih yang cukup jauh dari nilai satu, sehingga dapat dikatakan bahwa terdapat masalah overdispersi pada kedua model regresi logistik yang digunakan. Oleh karena itu penggunaan model regresi beta-binomial akan lebih sesuai. Pada Tabel 5 ditampilkan dugaan parameter regresi beta-binomial yang diperoleh menggunakan algoritma genetik. Input yang digunakan tidak berbeda dengan pendugaan untuk parameter regresi logistik. Agar lebih mudah dilakukan interpretasi, persamaan yang digunakan ditransformasi logit sehingga diperoleh Model I : logit( ) = −0.7277 + 0.3423 + 1.0108 + 0.5209 + 0.7993 Model II : logit( ) = −0.4437 − 0.0983 dan interpretasi koefisien dilakukan dengan nilai rasio odd. Pada model I, nilai dugaan rasio odd untuk peubah tipe bibit adalah 1.4082. Artinya penggunaan bibit tipe O. Aegyptiaca 75 akan meningkatkan kecenderungan berkecambah sebesar 1.4082 kali dibandingkan penggunaan tipe bibit O. Aegyptiaca 73. Sedangkan untuk peubah jenis ektrak akar tanaman, nilai rasio odd yang diberikan adalah 2.7446. Artinya, untuk model yang digunakan
Tabel 5 Dugaan parameter dan rasio odd regresi beta-binomial pada model I dan model II Parameter
Dugaan Algoritma Genetik Model I 0.0194 −0.7277 0.3423 1.0108 -
Model II 0.0124 −0.4437 −0.0983 0.5209 0.7993
Dugaan Rasio Odd Model I 1.4082 2.7478 -
Model II 0.9064 1.6835 2.2240
11 penggunaan ekstrak tanaman ketimun memberikan kecenderungan untuk bibit berkecambah sebesar 2.7478 kali dibandingkan ektrak akar tanaman buncis. Pada model II, peubah tipe bibit memiliki nilai rasio odd sebesar 0.9064. Artinya jika bibit yang digunakan adalah tipe O. Aegyptiaca 75, maka kemungkinan untuk berkecambah sekitar 0.902 kali bibit tipe O. Aegyptiaca 73. Untuk ekstrak akar tanaman, penggunaan tanaman ketimun akan memungkinkan bibit untuk berkecambah 1.6835 kali dibandingkan menggunakan ekstrak akar tanaman buncis. Sedangkan untuk interaksi antara bibit dan ekstrak tanaman, penggunaan kombinasi bibit O. Aegyptiaca 75 dan akar tanaman ketimun memungkinkan bibit untuk berkecambah lebih besar 2.2240 kali dibandingkan kombinasi perlakuan lainnya.
SIMPULAN Algoritma genetik dapat digunakan sebagai metode pendekatan baru untuk pendugaan parameter regresi logistik dan beta-binomial dengan memberikan dugaan yang mendekati hasil IRLS bahkan dengan nilai log-kemungkinan yang lebih baik. Walaupun algoritma genetik memerlukan iterasi yang lebih banyak, namun algoritma genetik tidak memerlukan penurunan fungsi secara deduktif seperti yang perlu dilakukan pada IRLS. Selain itu, dengan adanya proses mutasi, memungkinkan hasil yang diperoleh algoritma genetik lebih baik dari IRLS. Algoritma genetik cocok digunakan ketika peubah penjelas yang digunakan banyak karena metode ini mampu mengangani tugas-tugas komputasi yang besar. Selain itu, kriteria yang ingin dioptimumkan dapat disesuaikan dengan keinginan peneliti dengan mudah tanpa perlu mengganti rancangan lainnya.
DAFTAR PUSTAKA Collet D. 2003. Modelling Binary Data. Ed ke-2. London (GB): Chapman & Hall. Crowder MJ. 1978. Beta-binomial Anova for Proportions. Appl Statist. 27(1): 3437. Haupt RL, Haupt SE. 2004. Practical Genetic Algorithm. Ed ke-2. New Jersey (US): J Wiley. Hinde J, Demetrio C. 2010. Overdispersion: Models and Estimation. London (GB): Chapman & Hall. Hosmer DW, Lemeshow S. 2000. Applied Logistic Regression. Ed ke-2. New Jersey (US): J Wiley. McCullagh P, Nelder JA. 1989. Generalized Linear Models. Ed ke-2. London (GB): Chapman & Hall.
12 Lampiran 1 Program algoritma genetik untuk pendugaan parameter regresi logistik pada R # format data [m|r|X] GA1 <- function(data,N,m,p,ul){ # Pembangkitan populasi awal inisial <- function(data,N){ k <- ncol(data)-2 m <- data[,1] r <- data[,2] X <- as.matrix(data[,3:(k+2)]) rata <- apply(X,2,mean) rata <- ifelse(abs(rata)< 1e-03,1e-03,rata) b <- matrix(runif(N*k,-2.5/rata,2.5/rata),N,k,T) p <- sum(r)/sum(m) b0 <- log(p/(1-p))-b%*%rata cbind(b0,b) } # Perhitungan nilai log-likelihood fitness <- function(data,pop){ k <- ncol(data)-2 n <- nrow(data) N <- nrow(pop) X <- cbind(1,data[,3:(k+2)]) LL <- rep(0,N) pearson <- rep(0,N) for(i in 1:N){ mi <- data[,1] ri <- data[,2] a <- as.vector(X%*%pop[i,]) p <- 1/(1+exp(-a)) LL[i] <- sum(ri*log(p)+(mi-ri)*log(1-p)) pearson[i] <- sum(((ri-p*mi)^2)/(mi*p*(1-p))) } pearson <- pearson/(n-k-1) a <- cbind(pop,LL,pearson) a[order(LL,decreasing=T),] } # Crossover cross <- function(pop.keep){ a <- nrow(pop.keep) b <- ncol(pop.keep) comb <- a+ factorial(a)/(2*(factorial(a-2))) d <- matrix(1:(comb*(b-1)),comb) k <- 1 for (i in 1:a){ for(j in i:a){ be<(1/pop.keep[i,b])/sum((1/pop.keep[i,b])+ (1/pop.keep[j,b]))
13 Lampiran 1 (lanjutan) d[k,]<-pop.keep[i,1:(b-1)]*be+(1-be)* pop.keep[j,1:(b-1)] k <- k+1 } } d } # mutasi mutasi <- function(offs,p){ m <- nrow(offs) n <- ncol(offs) a <- matrix(rbinom(m*n,1,p),m,n) b <- matrix((1+rnorm(m*n)/10),m,n) mut <- offs*(1-a) + offs*a*b mut } # Proses algoritma genetik pop <- inisial(data,N) b <- ncol(pop) data <- na.omit(data) npop <- fitness(data,pop) npop <- npop[is.finite(npop[,b+1]),] for(i in 1:ul){ if(nrow(npop)<m) stop("Ulangi pembangkitan populasi awal!") pop.keep <- npop[1:m,] offs <- cross(pop.keep[,1:(b+1)]) pop <- mutasi(offs,p) npop <- fitness(data,pop) npop <- npop[is.finite(npop[,b+1]),] } colnames(npop)<-c(paste("b",0:(b1),sep=""),"Loglikelihood", "Pearson/db") list(iterasi=siklus,generasi.akhir=npop) }
14 Lampiran 2 Program algoritma genetik untuk pendugaan parameter regresi betabinomial pada R # format data [m|r|X] GA2 <- function(data,N,m,p,ul){ # Pembangkitan populasi awal inisial <- function(data,N){ k <- ncol(data)-2 m <- data[,1] r <- data[,2] X <- as.matrix(data[,3:(k+2)]) rata <- apply(X,2,mean) rata <- ifelse(abs(rata)< 1e-03,1e-03,rata) b <- matrix(runif(N*k,-2.5/rata,2.5/rata),N,k,T) p <- sum(r)/sum(m) b0 <- log(p/(1-p))-b%*%rata cbind(b0,b) } # Perhitungan nilai fitness fitness2 <- function(data,pop){ mi <- data[,1] ri <- data[,2] X <- cbind(1,data[,-c(1,2)]) k <- ncol(data)-2 N <- nrow(pop) LL <- rep(0,N) for(i in 1:N){ phi <- pop[i,1] b <- pop[i,-1] p <- 1/(1+exp(-(X%*%b))) co <- (1-phi)/phi LL[i] <- sum(lgamma(co*p+ri)lgamma(co*p)+lgamma(co*(1-p)+mi-ri)-lgamma(co*(1p))-lgamma(mi+co)+lgamma(co)) } a <- cbind(pop,LL) a[order(LL,decreasing=T),] } # Crossover cross <- function(pop.keep){ a <- nrow(pop.keep) b <- ncol(pop.keep) comb <- a+ factorial(a)/(2*(factorial(a-2))) d <- matrix(1:(comb*(b-1)),comb) k <- 1 for (i in 1:a){ for(j in i:a){ be <-(1/pop.keep[i,b])/sum((1/pop.keep[i,b])+ (1/pop.keep[j,b])) d[k,]<-pop.keep[i,1:(b-1)]*be+(1-be)*
15 Lampiran 2 (lanjutan) pop.keep[j,1:(b-1)] k <- k+1 } } d } # mutasi mutasi2 <- function(offs,p){ m <- nrow(offs) n <- ncol(offs) n.mut <- rbinom(m*n,p) if(n.mut!=0){ baris <- round(runif(n.mut,0.51,m+0.5)) kolom <- round(runif(n.mut,0.51,n+0.5)) for(i in 1:n.mut){ if(kolom[i]==1){ a<-offs[baris[i],kolom[i]]* runif(1,0.8,1.2) offs[baris[i],kolom[i]]
1,runif(1,0,1),a) } else (offs[baris[i],kolom[i]]
16
RIWAYAT HIDUP
Penulis dilahirkan di Tasikmalaya pada tanggal 11 Februari 1993 dari Ayah bernama Tono dan Ibu bernama Tuti Setiawati. Penulis merupakan anak pertama dari tiga bersaudara. Tahun 2010 penulis lulus dari SMA Negeri 1 Bogor dan pada tahun yang sama diterima sebagai mahasiswa baru pada Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor (IPB) melalui jalur Undangan Seleksi Masuk IPB. Selama mengikuti pendidikan di IPB, penulis aktif menjadi asisten responsi Metode Statistika pada semester genap tahun ajaran 2011/2012 dan semester ganjil tahun ajaran 2012/2013, asisten responsi Perancangan Percobaan pada semester genap tahun ajaran 2012/2013, serta asisten responsi Analisis Eksplorasi Data pada semester genap tahun ajaran 2013/2014. Penulis juga aktif dalam Himpunan Keprofesian Gamma Sigma Beta sebagai staf departemen sains pada tahun 2012, staf departemen Analisis Data pada tahun 2013, dan ikut mengajar mata kuliah TPB dan Statistika di bimbingan belajar dan privat mahasiswa Klinik Studi Expert. Selain itu, penulis pernah mengikuti kepanitian Statistika Ria 2012 sebagai staf divisi Khusus. Bulan Juli-Agustus 2013 penulis melaksanakan Praktik Lapang di PT. SAS Indonesia.