BAB 2 TINJAUAN PUSTAKA
2.1.
Data Mining Data mining adalah kombinasi secara logis antara pengetahuan data, dan
analisa statistik yang dikembangkan dalam pengetahuan bisnis atau suatu proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, tiruan dan machinelearning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat bagi pengetahuan yang terkait dari berbagai database besar [15,16]. Data mining juga merupakan proses analisa yang dirancang untuk menelusuri data untuk mendapatkan bentuk konsisten dan hubungan yang sistematik antara variabel yang kemudian divalidasi dengan menggunakan sub set data yang baru [17]. Data mining sebagai bentuk dari penelusuran dengan analisis data, merupakan proses yang otomatis melakukan pengumpulan bentuk dan relasi dari sekumpulan data yang besar dibandingkan dengan melakukan percobaan hipotesa tanpa rumus [17], bahkan beberapa teknik data mining menggunakan metode validasi silang yang merupakan teknik sampling [18]. Kerangka proses data mining tersusun atas tiga tahapan,yaitu pengumpulan data (data collection), transformasi data (data transformation), dan analisis data (data analysis) [7]. Pada Gambar 2.1 ditunjukkan bahwa proses tersebut diawali dengan preprocessing yang terdiri atas pengumpulan data untuk menghasilkan data mentah (raw data) yang dibutuhkan oleh data mining, yang kemudian dilanjutkan dengan 8 Universitas Sumatera Utara
9
transformasi data untuk mengubah data mentah menjadi format yang dapat diproses oleh data mining, misalnya melalui filtrasi atau agregasi. Hasil transformasi data akan digunakan
oleh
analisis
data
untuk
membangkitkan
menggunakan teknik seperti analisis statistik,
pengetahuan
dengan
machine learning, dan visualisasi
informasi.
Gambar 2.1 Proses Data Mining [17] Machine Learning
adalah suatu area dalam
kecerdasan buatan
yang
berhubungan dengan pengembangan teknik-teknik yang bisa diprogramkan dan belajar dari data masa lalu. Data mining memiliki 4 tipe relasi [19] yakni: a. Kelas, data dikelompokkan dalam kategori oleh pengguna, b. Klaster, data dikelompokkan dalam group, berdasarkan relasi logika, c. Asosiasi, data digunakan untuk menemukan relasi antar data set,
Universitas Sumatera Utara
10
d. Bentuk sekuensial, data digunakan untuk menentukan perilaku dan trend. Pengumpulan data yang digunakan dalam data mining dapat berupa pengambilan data secara langsung melalui hasil survey, basis data, maupun catatan yang dimasukkan secara manual. Pada pengambilan data menggunakan basis data, dapat dilakukan dengan mengakses sistem basis data maupun melaui perantaraan webservice. Salah satu prosedur data mining yang banyak digunakan dalam penelitian [6] terutama oleh peneliti dari beberapa perusahaan Eropa adalah Cross-Industry Standard Process for Data Mining (CRISP-DM) [19] [21]. Berdasarkan metode CRISP-DM, terdapat 6 proses data mining yakni: a. Bussiness understanding Proses ini fokus pada pemahaman dan perspektif bisnis proses dari suatu sistem. b. Data Understanding Proses ini fokus pada pembelajaran data yang ada, pengumpulan dan penyeleksian data. c. Data Preparation Proses ini meliputi persiapan data yang disusun menjadi suatu dataset sehingga data tersebut dapat digunakan dalam permodelan.
Universitas Sumatera Utara
11
d. Modeling Data yang telah terkumpulkan akan diproses pada tahap ini. Untuk mendapatkan hasil yang optimal, perlu dilakukan pengulangan proses data preparation. e. Evaluation Melakukan evaluasi terhadap hasil pemodelan, proses pemodelan dan dataset yang disiapkan sehingga tujuan penelitian dapat tercapai. f. Deployment Pada proses ini model telah dihasilkan. Proses ini umumnya bukan merupakan akhir dari data mining, namun proses ini dapat menjadi awal dari proses berikutnya. Gambaran dari proses di atas dapat dilihat pada Gambar 2.2.
Gambar 2.2 Proses Pada Metode CRISP-DM [19]
Universitas Sumatera Utara
12
2.2.
Neural Network Neural network atau jaringan syaraf tiruan(JST) merupakan prosesor tersebar
paralel yang sangat besar yang memiliki kecendrungan untuk menyimpan pengetahuan yang bersifat pengalaman dan membuatnya siap untuk digunakan [22]. Jaringan syaraf tiruan merupakan suatu sistem pemrosesan informasi yang mempunyai karakteristik menyerupai jaringan syaraf manusia. Jaringan syaraf tiruan tersusun dari sejumlah besar elemen yang melakukan kegiatan analog dengan fungsifungsi saraf biologis yang paling mendasar. Jaringan syaraf tiruan menyerupai otak manusia dalam dua hal [22]: a. Pengetahuan diperoleh jaringan melalui proses belajar b. Kekuatan hubungan antar sel syaraf yang dikenal sebagai bobot sinaptik digunakan untuk menyimpan pengetahuan c.
Jaringan syaraf tiruan dapat melakukan pembelajaran dari pengalaman sebelumnya, melakukan generalisasi, yakni dapat menghasilkan keluaran yang benar untuk input yang belum pernah dilatih sebelumnya, atas contoh-contoh yang diperolehnya dan mengabstraksi karakteristik masukan. Sel syaraf adalah unit pemrosesan informasi yang merupakan dasar dari
operasi jaringan saraf tiruan. Gambar 2.3 menunjukkan susunan dari sebuah jaringan syaraf tiruan dengan 1 lapisan tersembunyi. Terdapat tiga elemen dasar dari model neuron yaitu [22]: a. Sekumpulan sinapsis atau jalur hubungan yang masing-masing memiliki bobot dan kekuatan hubungan
Universitas Sumatera Utara
13
b. Suatu penjumlah yang menjumlahkan sinyal-sinyal input yang diberi bobot oleh sinapsis syaraf yang sesuai c. Fungsi aktivasi, yaitu fungsi yang digunakan untuk membatasi amplitudo keluaran dari setiap neuron.
Gambar 2.3 Sebuah Jaringan Syaraf Tiruan Dengan 1 Lapisan Tersembunyi [23] 2.3.
Mengaktifkan Jaringan Saraf Tiruan Mengaktifkan jaringan saraf tiruan berarti mengaktipkan setiap neuron yang
dipakai pada jaringan tersebut. Banyak fungsi yang dapat dipakai sebagai pengaktif, seperti fungsi-fungsi goniometri dan hiperboliknya, fungsi unit step, impulse, linier, sigmoid, dan lain sebagainya [24]. Pada Gambar 2.4 ditunjukkan beberapa bentuk fungsi pengaktif.
Universitas Sumatera Utara
14
a.Fungsi Step
c.Fungsi Sigmoid
b. Fungsi Sign
d.Fungsi Linier
Gambar 2.4 Fungsi Pengaktif Fungsi sigmoid merupakan fungsi aktivasi yang umum digunakan dalam pelatihan jaringan syaraf tiruan [24,25]. Fungsi sigmoid didefenisikan sebagai berikut ............................................(2.1) Fungsi sigmoid memiliki keunikan yakni bila dilakukan pengaturan nilai σ pada persamaan diatas, maka fungsi sigmoid akan memiliki karakteristik menyerupai fungsi step ataupun linier. Pengaruh pengaturan σ pada karakteristik fungsi sigmoid dapat dilihat pada Gambar 2.5.
Universitas Sumatera Utara
15
Gambar 2.5 Pengaruh Pengaturan σ Pada Karakteristik Fungsi Sigmoid Bila nilai σ mendekati 0, maka karakteristik fungsi sigmoid menyerupai fungsi linier, dan bila nilai σ mendekati tak hingga, maka karakteristik fungsi sigmoid menyerupai fungsi step. 2.4.
Jaringan Syaraf Tiruan Back Propagation Model JST merupakan pengembangan dari model perceptron. Arsitektur ini
pertama kali di kemukakan oleh Rumellhart dan Mc Clelland tahun 1986. Ciri utama jaringan syaraf ini adalah dipunyainya tiga tipe lapisan jaringan yang terhubung penuh, yakni: jaringan penerima masukan, jaringan tersembunyi dan jaringan keluaran. Pelatihan jaringan dilakukan dengan cara memberikan vektor masukan dan vektor keluaran (himpunan data pelatihan). Untuk lebih jelasnya arsitektur JST back propagation dapat dilihat di Gambar 2.6.
Universitas Sumatera Utara
16
lapisan masukkan
lapisan keluaran
lapisan tersembunyi vektor masukkan
Gambar 2.6 Arsitektur JST Back Propagation Pelatihan pada JST back propagation, umpan maju dilakukan dalam rangka perhitungan bobot sehingga pada akhir pelatihan akan diperoleh bobot-bobot yang baik. Hubungan antara bobot ini ditunjukkan seperti pada Gambar 2.7. unit prasikap
a0 i1
wj1
i2
wj2
wjo
. . wjn
sj
in Gambar 2.7 Hubungan Antara Bobot Pada JST Selama proses pelatihan, bobot-bobot diatur untuk meminimumkan kesalahan yang terjadi. Sebagian besar pelatihan untuk jaringan umpan maju menggunakan gradien dari fungsi aktivasi untuk menentukan bagaimana mengatur bobot-bobot dalam rangka meminimumkan kinerja. Algoritma pelatihan standar back propagation akan menggerakkan bobot dengan arah gradien negatif. Prinsip dasar dari algoritma back propagation adalah memperbaiki bobot-bobot jaringan dengan arah yang membuat fungsi aktivasi menjadi turun dengan cepat.
Universitas Sumatera Utara
17
Algoritma back propagation dengan fungsi aktivasi sigmoid adalah sebagai berikut: a. Inisialisasi nilai bobot awal dengan menggunakan nilai acak yang cukup kecil, yakni antara 0 dan 1. b. Berikan data masukan dan keluaran c. Melakukan perhitungan keluaran. Perhitungan keluaran dilakukan dengan menggunakan persamaan sebagai berikut: Bila X merupakan matriks data masukan dan bobot neuron
merupakan matriks dari
ke-h, dan bila Z merupakan nilai aktivasi neuron
tersembunyi terhadap setiap nilai masukan X yang berbanding lurus terhadap bobot. Defenisi X,W dan Z adalah sebagai berikut:
....................................................(2.2)
......................................(2.3)
...............................(2.4)
Nilai Z merupakan hasil dari fungsi: ......................................................... (2.5)
Universitas Sumatera Utara
18
dan bila keluaran dari setiap layer tersembunyi adalah V, dimana .....................................................(2.6) dan nilai keluaran Y didefenisikan sebagai: .................................................(2.7) dimana
merupakan matriks bobot awal dari setiap neuron
tersembunyi, sehingga akan kita peroleh keluaran sebagai matriks
d. Penyesuaian bobot dilakukan dengan memanfaatkan algoritma rekursif, dimulai dari keluaran menuju ke lapisan tersembunyi pertama. Pengaturan bobot dilakukan dengan menggunakan persamaan: ...........................(2.8) Dimana: = merupakan bobot dari titik tersembunyi i atau dari masukan ke titik j pada waktu t, atau merupakan keluaran dari titik i ataupun masukannya. = merupakan perbaikan bobot antara lapisan tersembunyi dengan keluaran = merupakan nilai kesalahan dari titik j e. Nilai kesalahan
ditentukan oleh: ................................(2.9)
Universitas Sumatera Utara
19
Dimana: d
= keluaran yang diinginkan = hasil keluaran jaringan
f. Ada kalanya penambahan nilai momentum (α) dapat mempercepat proses pelatihan dan memperbaiki linieritas perubahan bobot. Nilai momentum memiliki rentang antara 0 dan 1. Penambahan nilai momentum didefenisikan dengan: ......(2.10) g. Melakukan kembali langkah ke-2 diatas sampai iterasi (T) tercapai.
Universitas Sumatera Utara