167
JURNAL SISTEM DAN INFORMATIKA
Pengaruh Fungsi Aktivasi, Optimisasi dan Jumlah Epoch Terhadap Performa Jaringan Saraf Tiruan Made Satria Wibawa STMIK STIKOM BALI Jalan Raya Puputan No. 86 Renon, Denpasar, Bali. (0361) 244445
[email protected]
Abstrak Jaringan Saraf Tiruan (JST) adalah salah satu algoritma dalam machine learning yang paling menjanjikan saat ini. Banyak penerapan dalam berbagai bidang menggunakan JST untuk proses machine learning. Perkembangan JST juga semakin cepat dan kompleks seiring penerapannya yang banyak digunakan. Namun, seiring peningkatan kompleksitas JST, diperlukan suatu studi untuk mengetahui parameter dasar terbaik yang dapat menghasilkan klasifikasi yang optimal. Penelitian ini bertujuan untuk melakukan studi komparasi parameter dasar pada JST, yaitu fungsi aktivasi, optimisasi dan jumlah epoch terhadap performa JST. Performa JST dinilai menggunakan tingkat akurasi. Ketiga parameter tersebut diujikan pada empat dataset dari repositori UCI, yaitu dataset WINE, dataset CAR, dataset IRIS dan dataset HEART. Berdasarkan hasil pengujian, fungsi aktivasi TANH lebih sering menghasilkan nilai akurasi tertinggi dibandingkan fungsi aktivasi RELU. Sedangkan fungsi optimisasi yang lebih sering menghasilkan nilai akurasi tertinggi adalah Adam. Rata-rata nilai epoch yang dapat menghasilkan akurasi tertinggi adalah diatas 200. Kata kunci: jaringan saraf tiruan, RELU, TANH, Adam, epoch Abstract Artificial Neural network (ANN) is one of the most popular algorithm in machine learning is. ANN have been applied on various field of machine learning. Development of ANN is increasingly fast and complex as its widely used application. However, along with the increased complexity of ANN, there are so many parameters need to be examined for generating optimal classification. This research aims to conduct a comparative study to find best parameters setting on ANN, i.e. the activation function, optimization function and number of epoch. Performance of ANN parameters is evaluated with accuracy rate. Testing are conducted on four popular UCI dataset, those dataset are CAR dataset, IRIS dataset, HEART dataset and CANCER dataset. Based on the test results, TANH activation function is better than RELU and for optimization function, Adam is better than LBFGS. The average optimal value of epoch is above 200. Keywords: artificial neural network, RELU, TANH, Adam, epoch
1. Pendahuluan Jaringan saraf tiruan merupakan suatu sistem pemrosesan informasi yang meniru cara kerja jaringan saraf manusia. Jaringan saraf tiruan tercipta sebagai suatu generalisasi model matematis dari pemahaman manusia (human cognition). Jaringan saraf tiruan tersusun dari sejumlah besar elemen yang melakukan kegiatan yang analog dengan fungsi-fungsi biologis neuran yang paling elementer. Elemenelemen ini terorganisasi sebagaimana layaknya anatomi otak. Jaringan saraf tiruan dapat belajar dari pengalaman, melakukan generalisasi atas contoh-contoh yang diperolehnya dan mengabstraksi karakteristik esensial input bahkan untuk data yang tidak relevan (1).
L-2
168
Gambar 1. Jaringan Saraf Biologis Manusia Seperti yang telah disebutkan sebelumnya, jaringan saraf tiruan meniru cara kerja jaringan saraf biologis pada otak manusia. Jaringan saraf biologis seperti yang ditunjukkan pada Gambar 1 terdiri dari beberapa bagian, yaitu soma, dendrit, akson dan sinapsis. Pada jaringan saraf tiruan terdapat juga bagianbagian yang menyerupai bagian pada jaringan saraf biologis manusia, seperti neuron, input, output dan bobot. Hubungan antara jaringan saraf biologis dan tiruan dapat dilihat pada Tabel 1. Tabel 1. Analogi Jaringan Saraf Biologis dan Tiruan Jaringan Saraf Biologis Soma Dendrit Akson Sinapsis
Jaringan Saraf Tiruan Neuron Input Output Bobot
Sama seperti manusia, jaringan saraf tiruan terdiri dari beberapa neuron dan ada hubungan antara neuron-neuron tersebut. Beberapa neuron akan mentransformasikan informasi yang diterimanya melalui sambungan keluaran menuju neuron-neuron yang lain. Dengan kata lain, neuran adalah sebuah unit pemroses informasi yang merupakan dasar operasi jaringan saraf tiruan. Neuron ini dimodelkan dari penyederhanaan sel saraf manusia yang sebenarnya. Gambar 2 merupakan contoh suatu neuron.
Gambar 2. Struktur Neuron pada Jaringan Saraf Tiruan Dengan neuron yang sederhana tersebut, jaringan saraf tiruan dapat dibentuk menjadi beberapa arsitektur seperti perceptron, feed-forward network, backpropagation, adaline & madaline, dsb. Arsitektur jaringan saraf tiruan menentukan keberhasilan target yang akan dicapai karena tidak semua permasalahan dapat diselesaikan dengan arsitektur yang sama. Namun, apapun jenis arsitekturnya beberapa parameter mendasar tetap digunakan. Beberapa parameter tersebut adalah fungsi aktivasi, fungsi optimisasi dan epoch. Fungsi aktivasi berfungsi untuk menghitung nilai keluaran berdasarkan nilai input dan bobot pada neuron, fungsi optimisasi berfungsi untuk meminimalisir error antara nilai keluaran dengan nilai yang dihasilkan oleh neuron. Minimalisasi nilai error dilakukan dengan cara mengubah nilai bobot di setiap neuron. Bobot diubah beberapa iterasi hingga menjadi konvergen, jumlah iterasi tersebut dinamakan dengan epoch. Untuk mengoptimalkan hasil klasfikasi dengan JST, ketiga parameter tersebut yang paling sering diubah. Oleh karena itu, penelitian ini bertujuan untuk melakukan studi komparasi fungsi aktivasi, fungsi optmisasi dan epoch terhadap hasil klasifikasi.
JURNAL SISTEM DAN INFORMATIKA Vol. 11, No. 2, Mei 2017
L-2
169 2. Tinjauan Pustaka/ State of the Art Beberapa penelitian sebelumnya lebih banyak meneliti tentang pengaruh metode variabel input terhadap performa JST. May, dkk(2) meneliti tentang berbagai metode reduksi dimensi dan seleksi fitur terhadap hasil klasifikasi yang dicapai oleh JST. Beberapa metode reduksi dimensi yang diuji adalah PCA; PLS; ICA; LVQ dan SOM, sedangkan metode seleksi fitur yang digunakan antara lain berbasis model (wrapper, ranking dan pencarian global) dan metode filter contohnya entropy, korelasi pearson dan korelasi spearman. Penelitian tentang relevansi parameter input juga dilakukan oleh Yadav(3). Pada penelitian tersebut kasus yang diteliti lebih spesifik, yaitu prediksi radiasi matahari. Proses seleksi fitur dilakukan menggunakan perangkat lunak WEKA. Kebanyakan penelitian meneliti input parameter, namun belum ada yang meneliti tentang parameter JST itu sendiri. Untuk itulah penelitian ini bertujuan untuk mencari parameter terbaik, yaitu fungsi aktivasi, fungsi optimisasi dan nilai epoch terhadap performa klasifikasi JST. 3. Metode Penelitian Metode Penelitian memberikan penjelasan tentang langkah-langkah, data, lokasi penelitian, metode evaluasi yang digunakan serta penjelasan terstruktur tentang algoritma atau metode dari penelitian yang dibahas. 3.1. Data Data yang digunakan pada penelitian ini adalah data sekunder yang bersumber dari repositori UCI (4). Penelitian ini menggunakan empat dataset yang paling banyak digunakan di repositori UCI, yaitu dataset WINE, dataset CARS, dataset IRIS dan dataset CANCER. a. Dataset WINE Dataset WINE (http://archive.ics.uci.edu/ml/datasets/Wine) merupakan analisa terhadap 3 jenis wine dari 3 jenis pohon anggur yang berbeda. Fitur yang digunakan adalah pengukuran kimiawi dari masing-masing wine. Terdapat 13 fitur pada dataset wine, yaitu alcohol, malic acid, ash, alcali, malic acid, ash, alcalinity of ash, magnesium, total phenols, flavanoids, nonflavanoid phenols, proanthocyanins, color intensity, hue, od280/od315 of diluted wines, proline. Tabel 2. Deskripsi Dataset WINE Dataset WINE Karakteristik dataset Multivariate Karakteristik atribut Real, Integer Jumlah tuple 178 Jumlah atribut 13 Missing Value Tidak ada b.
Dataset CARS Dataset CARS (http://archive.ics.uci.edu/ml/datasets/Car+Evaluation) merupakan kumpulan data evaluasi beberapa jenis mobil. Kelas dataset dibagi menjadi empat kelas, yaitu mobil yang tidak dapat diterima (unacc), dapat diterima (acc), mobil dengan kualitas baik (good) dan mobil dengan kualitas sangat baik (v-good). Distribusi kelas pada dataset CARS adalah sebagai berikut unacc : acc : good : v-good = 70 : 22 : 4 : 4. Tabel 3. Deskripsi Dataset CARS Dataset CARS Karakteristik dataset Multivariate Karakteristik atribut Kategorikal Jumlah tuple 1728 Jumlah atribut 6 Missing Value Tidak ada
c.
Dataset IRIS Dataset IRIS (http://archive.ics.uci.edu/ml/datasets/Iris) merupakan dataset paling populer di bidang pengenalan pola. Data yang digunakan untuk klasifikasi jenis anggrek ini terdiri dari 4 buah atribut, yaitu panjang petal, panjang sepal, lebar petal dan lebar sepal. Adapun jumlah kelas pada dataset ada sebanyak tiga kelas, yaitu Iris Setosa, Iris
L-2 Pengaruh Fungsi Aktivasi, Optimisasi dan Jumlah Epoch Terhadap Performa Jaringan Saraf Tiruan (Made Satria Wibawa)
170 Versicolour dan Iris Virginica. Dataset ini memiliki distribusi kelas yang seimbang, yaitu 50 data per kelas. Tabel 4. Deskripsi Dataset IRIS Dataset IRIS Karakteristik dataset Multivariate Karakteristik atribut Real Jumlah tuple 150 Jumlah atribut 4 Missing Value Tidak ada d.
Dataset CANCER Dataset CANCER (http://archive.ics.uci.edu/ml/datasets/BreastCancer) merupakan dataset biner. Dataset bertujuan untuk klasifikasi tumor jinak (benign) dan tumor ganas (malignant) pada kasus kanker payudara. Data tumor jinak sejumlah 357 dan tumor ganas sejumlah 212 buah. Fitur sejumlah 32 atribut diambil dari citra FNA tumor payudara. Tabel 5. Deskripsi Dataset CANCER Dataset CANCER Karakteristik dataset Multivariate Karakteristik atribut Real Jumlah tuple 569 Jumlah atribut 32 Missing Value Tidak ada
3.2. Fungsi Aktivasi a. Rectifier Linear Unit (RELU) Rectified Linear Unit (ReLU) adalah fungsi aktivasi yang memiliki perhitungan sederhana. Proses forward dan backward melalui ReLU hanya menggunakan kondisi if. Jika elemen bernilai negatif maka nilainya diset menjadi 0, tidak ada operasi eksponensial, perkalian atau pembagian. Dengan karakteristik seperti itu, kelebihan ReLU akan muncul saat berhadapan dengan jaringan yang memiliki neuron yang banyak sehingga dapat mengurangi waktu training dan testing dengan signifikan.
Gambar 3. Struktur Neuron pada Jaringan Saraf Tiruan b.
Hyperbolic tangent function (TANH) Hyperbolic tangent function atau yang sering disebut TANH pada umumnya lebih cepat mencapai konvergensi dibandingkan fungsi aktivasi sigmoid dan logistik dan dapat menghasilkan akurasi yang lebih tinggi. Performa yang ditawarkan oleh fungsi aktivasi TANH hampir sama dengan performa klasifikasi yang dihasilkan oleh fungsi aktivasi RELU.
JURNAL SISTEM DAN INFORMATIKA Vol. 11, No. 2, Mei 2017
L-2
171
Gambar 4. Struktur Neuron pada Jaringan Saraf Tiruan 3.3. Algoritma Optimisasi a. Limited-Broyden-Fletcher-Goldfarb-Shanno (L-BFGS) Metode Limited-Broyden-Fletcher-Goldfarb-Shanno (L-BFGS) merupakan metode optimisasi yang digunakan dalam pemrograman non-linier untuk menemukan nilai global minima. Metode ini adalah salah satu varian dari metode Quasi-Newton yang dibuat berdasarkan metode Newton yang sulit dan memiliki waktu komputasi yang lama. Karena kelemahan tersebut, dikembangkanlah L-BFGS yang memiliki keunggulan di waktu komputasi yang lebih sedikit dibandingkan metode BFGS (limited memory pada L-BFGS berarti memerlukan memori yang sedikit)(5). b. Adam Adam merupakan algoritma optimisasi stokastik berdasarkan perkiraan adaptif dari momen order rendah. Algoritma Adam pertama kali diperkenalkan oleh Kingma & Ba (6). Metode ini dapat diimplementasikan dengan mudah, memiliki komputasi yang efisien, memiliki kebutuhan memori yang kecil, invarian terhadap penskalaan gradien dan cocok diterapkan pada data atau parameter dengan jumlah yang besar. Algoritma Adam cocok diterapkan pada permasalahan data yang sangat berderau atau gradien yang menyebar. 3.4. Jumlah Epoch Epoch menandakan satu siklus algoritma machine learning ‘belajar’ dari seluruh set data training. Satu epoch berarti sebuah algoritma machine learning telah ‘belajar’ dari data training secara keseluruhan. Dalan jaringan saraf tiruan, proses pembelajaran yang berulang-ulang bertujuan untuk mencapai konvergensi nilai bobot. Karena nilai epoch yang sesuai tidak bisa diketahui, maka pada penelitian ini diujikan beberapa nilai epoch untuk mencapai nilai akurasi yang optimum. Nilai yang diujikan adalah kelipatan 50, dengan nilai epoch terkecil adalah 50 dan nilai terbesar adalah 500. 4. Hasil dan Pembahasan Kombinasi kedua fungsi aktivasi dan algoritma optimisasi digunakan pada keempat dataset yang ada, yaitu dataset WINE, CAR, CANCER dan CARS. Terdapat 4 kombinasi fungsi aktivasi dan algoritma optimisasi yang diujikan per dataset, yaitu RELU & Adam; RELU & LBFGS; TANH & Adam; TANH & LBFGS. Selain itu, beberapa nilai epoch diujikan untuk mengetahui pengaruh epoch terhadap hasil klasifikasi. Nilai epoch yang diujikan adalah 50, 100, 150, 200, 250, 300, 350, 400, 450 dan 500. Jadi, pada setiap dataset dilakukan klasifikasi sebanyak 40 kali (4 skema dengan masing 10 epoch). Hasil pengujian dapat dilihat pada Gambar 5, gambar dibagi menjadi 4 grafik. Hasil kombinasi metode RELU & Adam ditunjukkan oleh garis berwarna biru, RELU & LBFGS ditunjukkan oleh garis berwarna oranye, TANH & LBFGS ditunjukkan oleh garis berwarna hijau dan TANH & Adam ditunjukkan oleh garis berwarna merah. Pada grafik WINE (pojok kiri atas) hasil klasifikasi TANH & LBFGS dan RELU & LBFGS memiliki kemiripan nilai, dari 50 epoch hingga 500 epoch. Pada jumlah epoch sebanyak 50, hasil klasifikasi berada di nilai terendah dibandingkan nilai akurasi dengan jumlah epoch lainnya. Akurasi yang diperoleh oleh TANH & LBFGS dan RELU & LBFGS memiliki nilai yang sama, yaitu 0.961. Setelah nilai epoch ditingkatkan menjadi 100, akurasi dari metode RELU & Adam dan TANH & Adam
L-2 Pengaruh Fungsi Aktivasi, Optimisasi dan Jumlah Epoch Terhadap Performa Jaringan Saraf Tiruan (Made Satria Wibawa)
172 mengalami peningkatan yang siginifikan. Peningkatan tertinggi didapatkan dari metode RELU & Adam, yaitu sebesar 0.169 dari 0.753 ke 0.922. Grafik akurasi dapat dilihat pada Gambar 5.
Gambar 5. Grafik Nilai Akurasi pada Dataset WINE Seperti yang terlihat pada Gambar 6, perbedaan performa antar keempat metode terlihat jelas pada dataset CAR. Metode RELU & LBFGS (garis berwarna oranye) menjadi pemenang pada dataset CAR, dengan nilai akurasi yang lebih tinggi dibandingkan semua metode di semua jumlah epoch. Sedangkan hasil klasifikasi terburuk didapatkan dari metode TANH & Adam.
Gambar 6. Grafik Nilai Akurasi pada Dataset CAR Hasil komparasi pada dataset HEART ditunjukkan pada Gambar 7. Pada dataset ini terlihat metode RELU & LBFGS dan TANH & LBFGS menghasilkan nilai akurasi yang cukup stabil. Pada nilai epoch yang kecil, nilai akurasi kedua metode tersebut masih rendah. Setelah nilai epoch diatas 150 nilai akurasi kedua metode tersebut menjadi stagnan, metode RELU & LBFGS menghasilkan nilai akurasi sebesar 0.965 dan metode TANH & LBFGS menghasilkan nilai akurasi sebesar 0.958. Nilai akurasi yang dihasilkan metode RELU & Adam dan TANH & Adam memiliki tingkatan yang sama, yaitu sebesar 0.975. Metode RELU & Adam menghasilkan nilai akurasi tertinggi saat nilai epoch bernilai 250, sedangkan metode TANH & Adam menghasilkan nilai akurasi tertinggi saat nilai epoch berjumlah 300 hingga 500.
JURNAL SISTEM DAN INFORMATIKA Vol. 11, No. 2, Mei 2017
L-2
173
Gambar 7. Grafik Nilai Akurasi pada Dataset HEART Hasil pengujian pada dataset IRIS ditunjukkan pada Gambar 8. Tidak seperti pengujian pada dataset lainnya yang membutuhkan nilai epoch yang relatif besar untuk menghasilkan akurasi tertinggi, pada dataset IRIS akurasi tertinggi didapatkan pada nilai epoch awal yaitu 50. Akurasi tertinggi tersebut diperoleh dari metode TANH & LBFGS dengan nilai akurasi sebesar 0.9533. Tingkat akurasi yang dihasilkan oleh RELU & LBFGS juga cukup tinggi pada nilai epoch sebesar 50, yaitu 0.946. Lain halnya dengan metode RELU & Adam dan TANH & Adam yang menghasilkan tingkat akurasi sangat rendah pada nilai epoch yang kecil, namun meningkat seiring peningkatan jumlah epoch yang digunakan.
Gambar 8. Grafik Nilai Akurasi pada Dataset IRIS Rangkuman nilai akurasi tertinggi masing-masing metode dari setiap dataset disajikan pada Tabel 6. Tabel 6 menampilkan metode paling optimal yang dapat memberikan nilai akurasi tertinggi dengan nilai epoch terkecil di setiap dataset. Pada dataset WINE, metode terbaik adalah TANH & Adam yang menghasilkan nilai akurasi sebesar 0.9722 dengan nilai epoch sebesar 350. Nilai akurasi tertinggi pada dataset CARS dihasilkan oleh metode RELU & LBFGS dengan tingkat akurasi sebesar 0.8720 dan epoch sejumlah 200.
No
Dataset
1
WINE
2
CAR
Tabel 6. Rangkuman Hasil Akurasi Tertinggi Fungsi Epoch Optimisasi Aktivasi Terkecil RELU Adam 450 RELU LBFGS 50 TANH LBFGS 50 TANH Adam 350 RELU Adam 500
Akurasi Tertinggi 0.9666 0.9611 0.9611 0.9722 0.8327
L-2 Pengaruh Fungsi Aktivasi, Optimisasi dan Jumlah Epoch Terhadap Performa Jaringan Saraf Tiruan (Made Satria Wibawa)
174
3
HEART
4
IRIS
RELU TANH TANH RELU RELU TANH TANH RELU RELU TANH TANH
LBFGS LBFGS Adam Adam LBFGS LBFGS Adam Adam LBFGS LBFGS Adam
200 150 400 250 150 100 300 500 50 50 500
0.8720 0.8379 0.7881 0.9771 0.9648 0.9578 0.9771 0.94 0.9466 0.9533 0.94
Terdapat dua metode yang menghasilkan nilai akurasi tertinggi yang sama pada dataset HEART, yaitu RELU & Adam dan TANH & Adam. Nilai akurasi yang dihasilkan kedua metode itu sebesar 0.9771, RELU & Adam menghasilkan nilai akurasi tersebut dengan nilai epoch sebesar 250 sedangkan TANH & Adam menghasilkan nilai akurasi tersebut dengan nilai epoch sebesar 300. Metode TANH & LBFGS menghasilkan nilai akurasi tertinggi sebesar 0.94 pada dataset IRIS dengan nilai epoch terkecil, yaitu 50. Melihat dari hasil pada Tabel 6, fungsi aktivasi yang paling sering memberikan hasil terbaik adalah TANH. Sedangkan untuk fungsi optimisasi yang paling sering menghasilkan hasil terbaik adalah Adam. Berdasarkan nilai akurasi tertinggi yang dihasilkan oleh kombinasi fungsi aktivasi dan optimisasi pada setiap dataset, tidak terdapat perbedaan performa yang jauh antara metode terbaik dengan metode lainnya. Perbedaan terbesar terdapat pada dataset CARS, yaitu antara metode RELU & LBFGS dengan metode TANH & Adam dengan perbedaan tingkat akurasi sebesar 0.0839. Rata-rata metode terbaik menghasilkan akurasi tertinggi dengan nilai epoch diatas 200, kecuali metode TANH & LBFGS pada dataset IRIS yang dapat menghasilkan klasifikasi terbaik dengan epoch berjumlah 50. 4. Simpulan Penelitian ini bertujuan untuk melakukan studi komparasi pengaruh fungsi aktivasi, fungsi optimisasi dan jumlah epoch terhadap performa jaringan saraf tiruan (JST). Ketiga parameter tersebut diujikan pada empat dataset populer yang bersumber dari repositori UCI. Keempat dataset tersebut adalah dataset WINE, dataset CARS, dataset HEART dan dataset IRIS. Fungsi aktivasi yang diujikan adalah RELU dan TANH, sedangkan fungsi optimisasi yang diujikan adalah Adam dan LBFGS. Fungsi aktivasi dan fungsi optimisasi dikombinasikan sehingga menghasilkan empat metode, yaitu RELU & Adam, RELU & LBFGS, TANH & Adam dan TANH & LBFGS. Terdapat 10 nilai epoch yang diujikan, yaitu kelipatan 50 dimulai dari nilai epoch sebesar 50 hingga nilai epoch sebesar 500. Secara keseluruhan, proses pengujian dilakukan 40 kali per dataset. Hasil pengujian menunjukkan bahwa fungsi aktivasi TANH lebih sering menghasilkan nilai akurasi tertinggi dibandingkan fungsi aktivasi RELU. Sedangkan fungsi optimisasi yang lebih sering menghasilkan nilai akurasi tertinggi adalah Adam. Rata-rata nilai epoch yang dibutuhkan untuk mencapai akurasi tertinggi pada setiap dataset adalah diatas 200, kecuali pada dataset IRIS yang hanya membutuhkan epoch sejumlah 50 untuk mencapai akurasi tertinggi menggunakan metode TANH & LBFGS. Penelitian selanjutnya dapat menggunakan dataset yang lebih banyak dengan fungsi aktivasi dan optimisasi yang lebih beragam. Daftar Pustaka 1. Negnevitsky M. Artificial Intelligence. 3rd ed. USA: Addison-Wesley Publishing Company; 2011. 2. May R, Dandy G, Maier H. Review of input variable selection methods for artificial neural networks. In: Artificial neural networks-methodological advances and biomedical applications. InTech; 2011 3. Yadav AK, Malik H, Chandel SS. Selection of most relevant input parameters using WEKA for artificial neural network based solar radiation prediction models. Renew Sustain Energy Rev. Maret 2014;31:509–19. 4. Lichman M. UCI Machine Learning Repository. University of California, Irvine, School of Information and Computer Sciences; 2013. 5. Chong EK, Żak SH. Quasi-Newton Methods. Introd Optim Third Ed. :187–209. 6. Kingma D, Ba J. Adam: A method for stochastic optimization. ArXiv Prepr ArXiv14126980. 2014
JURNAL SISTEM DAN INFORMATIKA Vol. 11, No. 2, Mei 2017
L-2