BAB I PENDAHULUAN 1.1
Latar Belakang Pada penelitian machine learning banyak sekali diperbincangkan tentang
perilaku belajar mesin (komputer) agar mampu belajar dan berpikir cerdas layaknya manusia yang menggunakan pengalamannya untuk memecahkan masalah. Sebagai contoh, sebuah jaringan syaraf tiruan dituntut mampu memberikan jawaban berdasarkan data training yang sebelumnya diberikan. Sebuah decision tree harus mampu mengklasifikasikan data yang ada untuk merepresentasikan kelas-kelas yang terbentuk. Machine learning mulai digunakan dalam banyak hal seperti smartphone, tablet, dan masih banyak lagi kegunaannya dalam kehidupan sehari-hari. Hal ini dimaksudkan untuk mempermudah hidup manusia karena sebuah machine learning dibuat sedemikian rupa sehingga mampu
belajar
dan
bertindak
seperti
halnya
manusa
berdasarkan
pengalamannya. Akhir-akhir ini banyak sekali metode menggabungkan algoritma-algoritma yang ada di dalam bidang kajian machine learning sehingga tercipta algoritma hybrid. Algoritma hybrid ini diharapkan mampu memperbaiki performa sebuah machine learning. Pei dkk. (2003) menemukan bahwa sebuah fuzzy neuralnetwork dapat memiliki kemampuan yang sangat mirip dengan manusia dalam hal kemampuan
mempelajari
sesuatu.
Jabez
dan
Mala
(2012)
berhasil
menggabungkan algoritma genetika dan fuzzy untuk mendeteksi sebuah gangguan keamanan pada jaringan. Dalam penelitian terkini sudah sering dibahas mengenai algoritma hybrid yang berasal dari penggabungan algoritma genetika dan jaringan syaraf tiruan. Tang dkk. (2007) menemukan bahwa algoritma genetika yang digabungkan dengan jaringan syaraf tiruan mampu memperbaiki akurasi dari sebuah jaringan 1
2
syaraf tiruan yang menggunakan backpropagation saja. Dalam penelitian tersebut representasi biner digunakan untuk mendefinisikan bobot dari jaringan syaraf tiruan. Namun pada akhirnya kromosom dalam representasi biner tersebut harus dirubah untuk merepresentasikan half precission floating point untuk menghitung output dari jaringan syaraf tiruan. Kelemahan penelitian tersebut di atas adalah proses mutasi yaitu penggantian bilangan biner dari 0 ke 1 atau 1 ke 0. Proses tersebut jika terjadi pada bit yang signifikan dapat sangat merusak fitnes dari sebuah kromosom. Oleh karena itu banyak penelitian yang dilakukan untuk menyelesaikan masalah dalam bentuk bilangan desimal dengan representasi real. Salah satu diantaranya adalah penelitian Ling dkk. (2007) yang menggunakan representasi real untuk menemukan bobot jaringan syaraf tiruan untuk deteksi tulisan tangan. Parameter algoritma genetika yang digunakan adalah hasil penelitian Ling dan Leung (2007) yaitu menggunakan average-bound crossover dan wavelet mutation operators. Parameter tersebut hanya mampu memproses bilangan yang sudah didefinisikan batasnya. Dalam penelitian Ling dkk. (2007) tidak disebutkan secara jelas apakah dilakukan pemrosesan data awal atau penggunaan batas bilangan yang mampu mengakomodir seluruh data yang mungkin. Namun demikian masih terdapat kelemahan dari metode di atas karena parameter tersebut hanya mampu memproses bilangan yang sudah didefinisikan batasnya. Dalam penelitian Ling dkk. (2007) tidak disebutkan secara jelas adanya pemrosesan data awal atau penggunaan batas bilangan yang mampu mengakomodir seluruh data yang mungkin. Penelitian lain yang menggunakan representasi real adalah penelitian dari Irani dan Nasimi (2011). Mereka mengusulkan metode dengan cara melakukan pemrosesan data awal untuk menentukan nilai batas. Penelitian ini berhasil memperbaiki tingkat rata kesalahan jaringan syaraf tiruan yang semula memiliki nilai MSE=0.0014 menjadi 1.4e-4. Di sini Irani dan Nasimi bependapat bahwa data
3
set harus dinormalisasi agar batas bilangan yang akan diproses dapat ditentukan. Hal ini disebabkan algoritma genetika secara umum tidak mampu menangani permasalahan yang rentang bilangannya tidak di dalam rentang yang ditentukan. Oleh sebab itu dalam penelitian tersebut dilakukan normalisasi sehingga rentang bilangan dalam kromosom paling tidak dapat diperkirakan yaitu antara -1 dan 1. Kelemahan dari penelitian di atas adalah adanya perlakuan berupa proses normalisasi. Proses normalisasi dapat sangat mempengaruhi hasil jika tidak dilakukan dengan baik. Seperti yang diungkapkan oleh Tong dan Mintram (2010), bahwa proses normalisasi bisa saja mengurangi pengaruh sebuah attribut. Jika ada sebuah atribut yang seharusnya menjadi atribut yang paling diperhitungkan, oleh proses normalisasi dapat menjadi atribut yang tidak signifikan. Hal ini dirasa dapat mengurangi performa sebuah data set untuk dipelajari dalam macine learning. Untuk memperbaiki kelemahan-kelemahan tersebut di atas, maka penelitian ini mengusulkan metode GANN (genetic algorithm neural network) alternatif. Pada prinsipnya metode ini tidak perlu melakukan proses normalisasi kecuali pada data dalam bentuk non numeric. Namun demikian terdapat beberapa kendala yang perlu dipertimbangkan, antara lain ketika proses normalisasi tidak dilakukan, rentang angka di dalam kromosom yang digunakan menjadi tidak terduga. Hal ini disebabkan adanya perbedaan rentang data dari masing-masing attribut. Salah satu solusi yang bisa dilakukan adalah memperbesar rentang kromosom. Namun jika rentang terlalu besar dapat memperlambat proses pencarian. Untuk menjaga rentang kromosom yang kecil dapat juga dilakukan penambahan layer pada jaringan syaraf. Namun Lawrence dkk. (1997) menyebutkan bahwa untuk mengurangi overfitting adalah membuat struktur jaringan sekecil dan sesederhana mungkin. Maka solusi di atas tidak dapat dilakukan. Oleh karena itu harus dibuat sebuah metode sehingga kromosom dapat berubah rentangnya untuk mencari nilai optimal dari sebuah permaslahan. Hal ini
4
bertujuan supaya struktur jaringan syaraf tiruan tetap sederhana untuk terhindar dari overfitting 1.2
Rumusan Masalah Dari latar belakang di atas, maka dapat di rumuskan masalah penelitian
sebagai berikut: 1. Penggunaan metode GANN yang menggunakan representasi real dan normalisasi data set masih memiliki kelemahan karena proses normalisasi dapat menghilangkan peran suatu atribut sehingga dapat mengurangi akurasi. Berdasarkan masalah tersebut, maka pertanyaan penelitiannya dijabarkan sebagai berikut 1. Bagaimana
membuat
metode
mutasi
dalam
GANN
dengan
representasi bilangan real yang mampu merubah rentang bilangan sebuah populasi sehingga tidak diperlukan adanya normalisasi data? 2. Bagaimana akurasi yang didapatkan dengan metode mutasi tersebut di atas? 1.3
Batasan Masalah Penelitian ini adalah penelitian eksperimental dengan variabel independen
yang berupa parameter pc, pm, jumlah kromosom, dan jumlah iterasi yang divariasikan sedemikian rupa agar diperoleh nilai variabel dependen yang berupa nilai akurasi. Batasan-batasan yang digunakan dalam penelitian ini adalah sebagai berikut. 1. Data set yang digunakan merupakan data binary class atau data yang hanya memiliki 2 kelas sebagai output. 2. Digunakan 5 buah data set yaitu data set penyakit jantung, evaluasi mobil, kanker payudara, fertilitas pria dan kekuatan beton yang
5
memiliki tipe data yang berbeda. Data ini diambil dari https://archive.ics.uci.edu/ml/datasets.html. 3. Preprocessing dilakukan pada data set yang memiliki kelas lebih dari 2 dengan tujuan mempermudah perhitungan akurasi dan data yang tidak berbentuk numeris. 4. Representasi algoritma genetika menggunakan bilangan real yang masing-masing gennya merepresentasikan bobot pada satu jaringan neuron. 5. Jumlah hidden layer hanya ada 1 dan jumlah hidden neuron tidak lebih dari separuh input neuron. 6. Implementasi GANN digunakan untuk proses pengujian akurasi terhadap metode tersebut sehingga tidak memiliki antar muka. 1.4
Tujuan Tujuan dari penelitian ini adalah sebagai berikut. 1. Menemukan metode mutasi dalam GANN representasi bilangan real yang dapat mengubah rentang kromosom sehingga tidak diperlukan proses normalisasi data. 2. Mengetahui perbedaan akurasi metode GANN dengan mutasi yang diusulkan di atas dan tidak menggunakan proses normalisasi data dengan metode GANN yang menggunakan representasi real dengan metode secara umum dengan proses normalisasi data.
1.5
Manfaat Manfaat dari penelitian ini dilakukan adalah sebagai berikut 1. Sebagai usulan metode mutasi dalam algoritma genetika bilangan real yang rentang bilangan solusinya tidak dapat diketahui. 2. Sebagai usulan metode klasifikasi GANN yang tidak membutuhkan proses normalisasi data untuk meningkatkan akurasi dari proses
6
pelatihan, sehingga ketika digunakan dalam permasalahan sesungguhnya metode tersebut dapat memberikan akurasi yang baik. 3. Sebagai pembanding metode klasifikasi dengan metode yang lain. 4. Sebagai
pembanding
metode
mutasi
algoritma
genetika
representasi real dengan metode mutasi yang lain 1.6
Metodologi Penelitian Langkah-langkah atau metode penelitian yang digunakan dalam penelitian
ini adalah sebagai berikut: 1. Studi Literatur Studi literatur dalam hal algoritma genetika, jaringan syaraf tiruan, dan GANN dilakukan untuk mengetahui perkembangan riset/teknologi terkini sebagai pendukung untuk melakukan penelitian terhadap usulan metode dalam GANN. 2. Analisa dan Percancangan Metode GANN Dari hasil studi literatur kemudian dilakukan analisis mengenai metode mutasi algoritma genetika dan data set yang akan digunakan dalam pengujian. Kemudian akan dilakukan perancangan metode GANN tanpa proses normalisasi. 3. Implementasi Metode GANN Berisi tentang deskripsi implementasi yang menggunakan bahasa java dengan Netbeans IDE 8.0 beserta cuplikan dari implementasinya. 4. Pengujian Metode GANN Dalam proses ini hasil dari implementasi akan dilihat kemampuan mengklasifikasi beberapa data set. Kemampuan mengklasifikasi akan dilihat berdasarkan akurasi terhadap data test. Parameter di dalamnya seperti probabilitas kawin silang (Pc), probabilitas mutasi (Pm), jumlah populasi, dan
7
jumlah generasi. Pengujian dilakukan beberapa kali dalam masing-masing parameter yang berbeda untuk mendapatkan hasil data yang valid. 5. Penulisan Laporan Hasil dari proses pengujian kemudian dilakukan analisis. Hasil analisis tersebut dituliskan dalam bentuk laporan penelitian dan ditarik kesimpulan dari penelitian tersebut.
1.7
Sistematika Penulisan Rincian dari penulisan laporan penelitian akan dijabarkan sebagai berikut: 1. BAB I PENDAHULUAN Berisi tentang latar belakang penelitian, rumusan masalah, batasan
masalah dan tujuan dari diadakannya penelitian. 2. BAB II TINJAUAN PUSTAKA Berisi hasil penelitian, rangkuman buku ilmiah, dan artikel ilmiah baik melalui internet dan media cetak yang digunakan sebagai acuan untuk melakukan penelitian. 3. BAB III LANDASAN TEORI Berisi tentang teori yang berasal dari pustaka yang digunakan dalam penelitian ini. Teori tersebut merupakan penjabaran akan algoritma genetika, jaringan syaraf tiruan, GANN, dan metode pengukuran yang digunakan. 4. BAB IV ANALISA DAN PERANCANGAN Berisi analisa tentang data set yang digunakan dan mutasi yang kemudian dirancang menjadi serangkaian proses dari algoritma genetika dengan
8
representasi bilangan real untuk pelatihan jaringan syaraf tiruan tanpa proses normalisasi data. 5. BAB V IMPLEMENTASI Berisi tentang deskripsi implementasi rancangan dan demo dari metode GANN dalam bentuk cuplikan kode dan hasil dari implementasi. 6. BAB VI HASIL PENELITIAN Berisi tentang hasil penelitian yang berupa akurasi dan perbandingan dari metode GANN hasil implementasi dengan metode GANN lainnya serta pembahasan dari hasil penelitian tersebut. 7. BAB VII PENUTUP Berisi tentang kesimpulan dari penelitian dan saran akan penelitian selanjutnya dalam hal GANN.