BAB 2 TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1
Tinjauan Pustaka Data mining atau au penambangan penamba bang ngan data adalah proses
prediksi informasi yang ya ang n tersembunyi dari ekstraksi dari prediksi sebuah
kum mpulan kumpulan
data ta. data.
pengetahuan berupa pengetahuan penamb mbangan penambangan
Hasil
bar aru u baru
da ata a data
penambanga gan penambangan
yang didapatkan did i apatkan yang
tersebut.
Dal ala am Dalam
data d ri da dari
dapat proses
pener erapannya, penerapannya,
pen nambanga gan n data ini ini memiliki memilik ki dua d a hasil du hasi il utama a yaitu penambangan sebuah h sebuah
pre r diks ksi prediksi
dan
sebuah
deskrip psi si(inf nfor orm masi deskripsi(informasi
atau
peng nget etah ahua an baru). Prediksi ini adalah sebuah sebua uah h proses pros ses pengetahuan pe eng ngo olah han pengolahan
data
yang
ada
pada
dataset
ya ang yang
aka an akan
meng me n ha asilkan sebuah prediksi nilai di masa yang yan ng akan n menghasilkan datang da ng. datang.
Sedangkan
deskripsi
lebih
s fokus
kepa ke p da kepada
penca arian pola - pola dan informasi yang menggambarkan mengg gambarkan an pencarian penggu una data da a keadaan data agar dapat disajikan kepada pengguna se elanj n utnya (Geetha, et al., 2008). selanjutnya Salah satu proses prose es yang y ng dapat ya dapat dilakukan pada data data mi mining
adalah
Netw Ne wor ork k Network mela me laku kuka kan n melakukan
klasifikasi si. klasifikasi.
(ANN)
merupakan
klas kl asif ifik ikas asi. i. klasifikasi.
Metode salah
Dal ala am Dalam
Artificial
satu
Neu euro ron Neuron
meto tode de metode
pen enel elit itia ian n penelitian
unt ntuk untuk tent te ntang tentang
Ja ari ring ngan an Syaraf Sya yara af Tiruan an Dengan Algoritma Algori itm tma Backpropagation Back Ba ckpr prop opag agation Jaringan Kelulu usan Sidang Si untuk Penentuan Kelulusan Skripsi
(Matondang,
a algoritma pada metode ANN yang 2013) diketahui bahwa adala ah algoritma algor ritma Backpropagation. Pada sering digunakan adalah metode dengan
algoritm ma algoritma
in ni ini
menggunakan
metode ini,
ha kunci keberhasilan dari hasil dari ANN terdapat pada pelatihan masih
data data.
Pada
penelitian
dilakukan
pada
iterasi
ini
pelatihan
pertama
saja
data
sehingga
belum dapat mencapai nilai eror sesuai dengan target peneliti.
Pada
penelitian
7
tentang
Analisis
Metode
Jaringan Syaraf Tiruan Backpropagation untuk Pengenalan Sel Kanker Otak
(Handayani, 2013), dalam menggunakan
metode ANN, selain pelatihan data, hal penting yang perlu diperhatikan adalah arsitektur ANN yang dibuat dan juga bobot yang g akan ak dig igun unak a an untuk membandingkan digunakan hasil
yang
maksimal
kel eluar. keluar.
Hasil
kar arena bobot bobo ot karena
dan
dari
penelitian
arsitektur
kurang
yang digunakan
kurang sesuai. sesuai. Permasalahan Permasa ala laha han n mengenail meng me ngen enail bobot t pada metode ANN
dapat dapat
diat atas asi i diatasi
pada
penel elit itia ian n penelitian
tentang
P ramalan Pe Peramalan
Penj njualan Mobil Mo Meng nggu gunakan Jaringan Jari Ja ringan Syaraf Sya ara raf Tiruan Tiru uan a dan Penjualan Menggunakan C ertain inty ty Certainty
Fac act tor Factor
(Pakaja,
et
al. l , al.,
2012 20 1 ). 2012).
Pada
pene eli liti tian ini digunakan metode Certainty Certain nty t Factor Fac acto tor yang ya penelitian diko kom mbin nasikan pada ANN. Fungsi Certainty Factor Fac a to tor r adalah adala ah dikombinasikan me memb mberi ikan nilai pembanding yang terbaik yang g digunakan digu gun nakan n memberikan un untuk
melakukan
koreksi
dikel luarkan ANN. dikeluarkan
Dengan
bobot
metode
dari
ini,
has sil hasil
yang yang
akuras si tingkat akurasi
hasil data akan bertambah. Salah satu kegunaan keguna aan lain lain n da dari
penggunaan
peramalan tentang
dat da ta data
metode yang yang
Penerapan
ANN
akan
Algo ori ritm tma Algoritma
yaitu datang. g datang.
n digunakan Pad ada Pada
Jaringan
untuk uk untuk
peneliti ian penelitian
Saraf
Tir rua uan n Tiruan
Ba Back c propagation dalam Memprediksi Tingkat Suku u Bunga Bun ung ga Backpropagation Bank Bank
(Anwar (A a , (Anwar,
pe pela latihan pelatihan
data data
2011 20 11), ) 2011), unt ntuk untuk
dik iket etah ahui ui diketahui
mem empr predik ksi memprediksi
bahwa h bahwa ses esua u tu sesuatu
par aram amet eter parameter al hal
dapat dapat
berp pen enga g ruh h pada hasil l prediksi. predi diksi. Pada Pad da penelitian p neliti pe itian ini berpengaruh keakuratan prediksi mencapai me encapai 94% yang menandakan bahwa akurasi sudah sangat baik. baik. Dari terhadap
penelitian data
EEG
g yang deng de ngan dengan
yang
pernah
melakukan
dilakukan klasifikasi
berdasarkan penyakit – penyakit yang dapat dideteksi melalui data EEG diketahui bahwa penyakit – penyakit yang dapat diklasifikasikan adalah penyakit epilepsi, Mood
Disorder,
Dementia,
Schizophrenia
8
dan Attention
Deficit
Hyperactivity
tersebut
klasifikasi
memanfaatkan akurasi orang
tes yang
Disorder.
data
algoritma
EEG
J48
Dari
penelitian
menggunakan
yang
Weka
memberikan
untuk
mengidentifikasi
tidak
memilik ki memiliki
negatif
p nyakit pe penyakit
dan
hasil
orang
–
(spesifisitas)
berada diantara a 94% hingga 100% sedangkan se eda d ngkan akurasi tes untuk mengidentifikasi mengid identifikasi s positif orang – orang memiliki penyakit t (sensitifitas) (sensitifitas as) berada b ra be rada da diantara dia iantara 70% % hingga 100% (Pande dey (Pandey
&
Ku und ndra ra, Kundra,
20 2014 1 ). 2014).
Ang ngka ka Angka
pas a ti pasti
akura rasi akurasi
dari
spe esifisit tas dan sensitifitas sen ensi siti tifitas deteksi dete de t ksi penyakit peny nyak a it epilepsy epi pilepsy spesifisitas m elalu ui data da EEG ini dapat diketahui ui pada pad da penelitian peneli itian melalui EEG Epil lep epti tic EEG EE Detection Using Neural Networks Net tworks s and and PostPost s Epileptic Clas ass sific cation dimana hasil akurasi spesifisitas spesifi isi s ta as berada b rad be da Classification pada angka pada an ngka 99.99% dan untuk akurasi sensitifitas sensitifi itas berada berada a pa pada
angka
91.29%
(Patnaik
&
Manyam,
) 2008)
.
Pada Pada
penel litian tersebut digunakan metode Wavelet Transfor Transfo or penelitian untuk melakukan ekstraksi fitur dan proses klasifikasi klasifika kasi i me menggu g nakan ANN dengan algoritma backpropagatio on. . Pada da menggunakan backpropagation. penel litian tentang tentang g Th The e Use Of Wavelet Wavel let Power Spectrum Spectru rum m penelitian For Detection And Identification Iden ntifi fication Of Thinking-Induced Thinking-Ind duc uced ed Eeg Signals, data EEG yang diambil dari hasil perekaman Eeg per rek ekam ama an alat dengan alat denga g n 20 kanal kan anal al sinyal sinyal dapat dapa da pat t diklasifikasikan dikl di klasif ifik kas asik ikan an ke da dala lam dua kelas kela ke las s yaitu yait ya itu kondisi kond ko ndis isi rileks rile ri leks dan dan a tidak rileks. ril ileks. dalam Pros ses analisis ana ali lisis dan klasifikasi klasifik kl ikasi menggunakan menggu gunakan spektral spektral Proses daya yang sebelumnya menggunakan menggun nakan transformasi wavelet sebagai pra pengolahan n data EEG EE EG dimana dalam proses ini dapat memberikan keberhasilan keber rhasila an klasifikasi sebesar 85% untuk kondisis rileks dan da an 83% 83 3% untuk kondisi non rileks. Pada penelitian ini dilakukan dila akukan juga klasifikasi tanpa melewati
proses
klasifikasi
tanpa
pra
pengolahan
proses
pra
data,
dimana
pengolahan
data
hasil dapat
menurunkan keberhasilan klasifikasi menjadi 58% untuk kondisi rileks dan 60% untuk kondisi tidak rileks. Dari
9
penelitian
ini
pengolahan
data
memberikan
dapat
disimpulkan
sebelum
peningkatan
proses
bahwa
proses
klasifikasi
keberhasilan
pra dapat
klasifikasi.
Hal
ini dikarenakan pada metode transformasi wavelet dapat mengatasi sinyal yang yan ng non stasioner stas st asioner (Djamal, et al., 2005). Pada penelitian pene nelitian sebelumnya ini i i tidak dilakukan in eksperimen lebih lebih jauh h mengenai keterkaitan keterkait itan unsur waktu pada
data data
EEG
yang yang
dim imil ilik iki dimiliki
m dalam
melakukan
klasif ifikasi. klasifikasi. Pr ros oses es penambangan pen nam amb bangan data sangat sang gat a ber erpe pen ngaruh h pada Proses berpengaruh jeni is datanya. dat da tany ya. Pada data EEG, data yang g dihasilkan diha hasi silk lkan oleh oleh jenis EEG bersifat bersif be ifat data temporal sehingga proses es penambangan pen enam ambang gan a da ata dilakukan dil ilakukan menggunakan teknik temporal data data a mining. mini mi ning g. data Pa d Pada
teknik
berda be asarkan berdasarkan
ini,
pemrosesan
kurun
waktu
data
akan
tertentu.
dila laku kukan n dilakukan
Pada
pro rose es proses
klasi ifikasi epilepsi berdasarkan data EEG, sebuah seb bua u h data da ata a klasifikasi t rtentu te tertentu
belum
memi mili l ki memiliki
a penyakit peny pe nyakit epilepsi epile eps psi i atau gejala
beberapa
data data
me menentukan
dapat
menunjukan
dala lam m dalam
apakah
wakt ktu u waktu
data
apakah
tertentu
tersebut
tere rebut t data terebut belum m. belum.
Butu tuh h Butuh
untuk
dap apat at dapat
adalah
data
yan ya ng yang
memi me ili liki gejala epilepsi atau tidak. Maka dari dari itu, itu, memiliki eksp ek s er erim imen en eksperimen
unt ntuk uk untuk
kl las asif ifik ikas asi i klasifikasi menemuk kan menemukan
men enen entu tuka kan n menentukan
pe it penyakit
batas waktu
wakt wa ktu u waktu
epile epsi epilepsi terb bai a k. terbaik.
dala da lam m dalam
mela laku kukan melakukan
d bu di butu tuhk hkan an dibutuhkan Pada
untuk
peneli litian yang penelitian
pernah dilakukan menggunakan mengg gunakan Time Domain dan Frequency Domain
Features
a pada
data
EEG.
Sebelum
dilakukan
pemrosesan data, terlebih terleb bih dahulu da ahulu data EEG dimasukan ke dalam pra proses. Pada bagian bagian ini, data durasi
23 6 23.6
detik
dilaku k kan dilakukan
pemotongan
EEG dengan dimana
tiap
segmen pemotongan memiliki durasi 1 detik. Pemotongan ini
digunakan
untuk
melakukan
pengenalan
dan
pembelajaran pada ANN untuk mengenali pola dari data-
10
data yang dipotong (Srinivasan, et al., 2005). Hasil dari klasifikasi menggunakan memberikan akurasi sebesar 99,6%. Pada penelitian ini, data yang digunakan adalah data EEG dari dari penderita pen end derita a epilepsi epi p lepsi yang disediakan oleh
as Universitas
yang
h telah
Bonn.
Terdapat
menggunak a an menggunakan
data
be beberapa
ini
penelitian
un untuk
melakukan
peneliti ian terhadap data data EEG. EEG EG. Salah Sala Sa l h satu penelitian pen e elitian di penelitian Indone nesia dengan deng gan menggunakan menggunakan data dat ata a ini ini adalah penelitian pen e elitian Indonesia yan ng yang
ber rju judul berjudul
Kl las asif ifi ikasi i Klasifikasi
eg Eeg
Mengg gunakan Menggunakan
da Least Leas Le ast Squares Squa uares FǦScore, dan
K oefis sie ien n Autoregresif, Auto toregresif, Koefisien Supp ppor ort t Vector Ve ector Machine Support
Siny Si yal Sinyal
al. l., 2011). 2011 20 11). ) Pada Pad a a (Karyawan et al.,
pe ene nel liti ian ini penelitian
men ngg ggu unaka an data EEG diklasifikasikan menggunakan
LS LS-S -SVM M LS-SVM
kombinasi
dengan
autoregresif
seba agai sebagai
fitur r fitur
ek ekstra raksi dan F-score sebagai fitur seleksinya. seleksin nya. . Pada P da Pa ekstraksi penel litian ini menitik beratkan pada klasifikasi klasifika asi orang ng penelitian sehat dengan mata terbuka dan orang dengan penderita penderi rita a ep pile epsi epilepsi
pada
didapatkan n
kondisi
a ku kura rasi si akurasi
pe p nelitian penelitian
ini, 5
di dise sedi diak akan. disediakan.
Pada Pada
Dari
kla lasifika kasi klasifikasi hanya
ke kese seluruhan keseluruhan
me mela laku k kan melakukan
kejang.
penelit tian n penelitian
seb ebes esar ar sebesar
99,64%.
digunakan digunakan
2
yang
ada
pada
a data
pen enelitia ian n penelitian
ini ini
da data
EEG EEG
dataset
eksp ek sper rim imen en pada pad ada a eksperimen
unsu sur r unsur
in ni ini Pad ada a Pada
dataset
wakt ktu u yang waktu
dari dari yan ang yang tid idak tidak
ter erd dapat terdapat
pada a data data EEG. EEG EE G. Penelitian dilakukan
denga an dengan
data
dengan
yang
sama
mengg gunakan menggunakan
juga
ANN
pernah sebagai
pengklasifikasi. Pada penelitian p nel pe litian ini, kelima dataset digunakan d t t dataset
untuk
klasif fik kasi. klasifikasi.
kili mewakili
Dimana
i i masing-masing
masing-masing
k l kelas
yang
d ada.
Klasifikasi dilakukan pada kombinasi dataset S dan Z, kemudian adalah
dataset
dataset
S,
S,
F,
F,
dan
Z,
N,
11
Z,
serta
dan
O.
yang
terakhir
Penelitian
ini
menggunakan proses
metode
klasifikasi
Time-Frequency yang
Analysis
menggunakan
ANN
dimana
memberikan
akurasi terbaik dengan memberikan akurasi sebesar 100% untuk kombinasi pertama, 100% untuk kombinasi kedua, dan 89% untuk kombinasi kombinas asi i ke 3 2.2
(T (Tzallas et al., 2009).
Te eori Dasar Teori
2.2.1. Data Mining g Data analis sis analisis
min inin ing g mining
adalah
sebu se buah ah sebuah
m lakukan me melakukan
dari sudut pandang pand pa ndang yang ya ang berbeda berbe eda d dan data dari
mena nari rik k menarik
ke kesimpulan
be berb rbagai i berbagai
informasi
di dip paka kai dipakai
untuk
dari baru
hasil yang
membentuk
a alis an isis is analisis
yan ang g yang
dap pat dapat
pengetahuan
ru baru
gun na guna
Lu ubi b s, , 2012) 2012) (Mabrur & Lubis,
sed dangkan pengertian lain dari sedangkan menemukan
pola
men nja j di menjadi
ng penting
me m mp peroleh sebuah keuntungan memperoleh
pr roses proses
proses
yang
data mining minin ng ad adal a ah adalah memiliki
ar rti arti
dan dan
pe engetahuan yang ada dari data yang berjumlah berjumla ah besar be esar r pengetahuan (H Han, (Han,
Kamber,
&
Pei,
2012).
Analisis
da ata a data
ng yang
dilakuka kan n pada p da data pa ta mining minin ng merup pak kan analisis anali isis pada pa ada dilakukan merupakan data dengan jumlah yang yan ang g sangat besar dan memiliki memil ilik iki i be b rbagai berbagai
jenis
dan
bentuk.
Data
g mining
dig igun unak aka an digunakan
un untu tuk k mencari menc me ncar ari i dan dan menemukan mene me n muka kan n hubungan hubu hu bung ngan an antar ant ntar ar data dat ata a dan dan untuk jug juga
men engi gid dent ntif ifik i asi i mengidentifikasi
mu unc ncul muncul
dari dari
ditemukan menjadi
dan dan
hubung gan a hubungan
ini
an akan
informasi
memp me mpel elaj ajar a i mempelajari
ant ntar antar
data
diam mbil diambil
dan
yang
baru
po ola pola
yang
terseb te but ut. tersebut.
Pola
diproses
dan
berharga
untuk dari
kumpulan data tersebut. tersebut u . Dari pengertian di i atas mengenai yang
telah
dijabarkan
oleh
para
data mining ahli ahli,
dapat
diketahui bahwa data mining adalah suatu pemrosesan data yang melibatkan proses pencarian dan analisis pada
suatu
kumpulan
data
12
yang
besar
yang
akan
menghasilkan
suatu
pola
atau
karakter
data
yang
dapat berarti dan dapat digunakan untuk membentuk sebuah
informasi
atau
pengetahuan
yang
berguna.
Data mining ini merupakan salah satu tahapan dari proses
yang
Database
ada
(KD KDD D) (KDD)
pada yang
Kn Knowledege digunaka an digunakan
Discovery
untuk
in
mengambil
intisari dari dari model mode el atau pola tertentu terten entu yang muncul dari analisis analisis data. . Seca c ra Secara menjad adi i menjadi
2
umum, umum,
data
kat ka tegori kategori
mining
utama,
d pat da t dapat
yait ya i u yaitu
dike elo l mpokan dikelompokan
pred pr edic i tive ve predictive
dan
desc de scri riptiv ve (Han, Kamber, & Pei, 2012) 2012 12) ) : descriptive a. . Predictive mining
adalah
proses
pencarian
pola la-pola a pola-pola
dari kumpulan data menggunakan variabel l tertentu te ert rten e tu yang
mungkin
datang.
akan terjadi
Proses
ini
di waktu
dilakukan
ya ang yang
denga an dengan
an akan ca a cara
melakukan analisis kepada kumpulan data a secara se ra urut dan dan membentuk membent ntuk satu sat atu atau beberapa beb eberapa kumpulan kumpul lan model
yang
t dapat
karakteristik da ri i dari
dari
pen e er erap apan an penerapan
proses es
digunakan digunakan kumpulan
predict ctiv ive e predictive
kla lasi sifika kasi si, , klasifikasi,
untuk data
data data
anal an alis sis analisis
mempred dik iksi si memprediksi baru.
Con onto toh Contoh
mi inin ng mining
adal ad alah adalah
si regresi
dan
analis isi is trend. analisis
b. Descriptive Descriptive
g mining
adalah
proses
pencarian
karakter atau ciri-ciri ciri ri-ci iri serta informasi tertentu yang
penting
m dalam
descriptive
suatu kumpulan data.
mining
adalah
Tugas
melakukan
penyelidikan atas informasi yang bisa didapatkan dari
kumpulan
didapatkan,
data
atau
tertentu.
cirri
13
yang
Informasi
yang
didaptkan
dari
proses ini perlu dilakukan proses validasi dan pemberian penjelasan terhadap temuan baru yang ada
pada
data.
Proses
ini
disebut
post-
processing. Data mining g memiliki 3 tujuan tuj ujuan utama dari proses dilak kuk ukan yaitu explanatory, confirmatory, c nfirmatory, dan co yang dilakukan explorat atory (Hoffer, (Hoffer er, Ramesh & Topi, 2012). 2012). Tujuan exploratory a data
minin ng mining
ad dalah adalah
d lam da m dalam
uk untuk
kait ka itan anny nya a kaitannya
memberikan
dengan
e xplanatory explanatory
penjel elasan n penjelasan
a pada
suatu
kondis isi i tertentu terten ent tu atau pada suatu sua atu proses pro ose ses s observasi. obser rvasi. kondisi Seda Se dang ngkan Sedangkan
tujuan
mela me lakuka kan melakukan d buat di at. dibuat.
confirmatory
konfirmasi
Terakir
atau
adalah
dig i un nak akan an digunakan
menjawab
unt n uk untuk
hip ipotes esis is hipotesis
exploratory
ng yang
yan ang yang
ber ertu tugas s bertugas
untu uk menganalisis kumpulan data yang akan diproses. dip pro rose s s. untuk Seb bagai Sebagai
salah
satu
proses
analisis,
a data
min inin ng mining
me emiliki kelebihan dalam melakukan proses analisis. analisi is. memiliki Ya ang pertama jelas bahwa data mining dapat menangani menang ngani i Yang pe pemrosesan seperti
ter erha hada d p terhadap
ki memiliki
data
yan ang g yang
ber erbaga gai i berbagai
b sar be besar
macam
dan
tipe
komple ko eks kompleks data
dan dan
pad pa da atribut yang dimiliki. Kelebihan yang penting pada data mining data p ng pe ngal alam aman an pengalaman
mem empe pela laja jari adalah kemampuannya untuk mempelajari ata tau u atau
pros pr oses es proses
pem mbe bela laja jara ran n pembelajaran
terd te rdah ahu ulu. terdahulu.
Deng De ngan an kemampuan kemam amp puan ini, ini, hasil hasi il dan n kualitas ku ual alit itas as analisis ana nalisis Dengan dilakuka kan pada pa ada d selanj jutnya akan proses yang dilakukan waktu selanjutnya meningkat. minin ng terdapat terda dapat beberapa tahapan yang Pada data mining dilakukan pertama
untuk
yang
mem mprose es memproses
dilalui
adalah adalah
kumpulan data
data.
Proses
selection.
Pada
pemilihan data ini adalah proses memilih kumpulan data yang akan dianalisis. Lalu yang kedua adalah preprocessing
yaitu
proses
pembuangan
data
yang
ganda, data yang inkonsisten , serta penggabungan
14
data
dengan
guna
data
lain
keperluan
untuk
analisis.
memperkaya
Proses
informasi
ketiga
adalah
transformasi yaitu proses pengkodean sesuai dengan kriteria
analisis
pada
data
yang
telah
dipilih.
Kemudian proses pencarian penc pe ncarian pola po atau informasi yang baru
dengan
terakhir
metode
adalah
pengka kaj jian pengkajian
atau
ik teknik
proses
hasil
tertentu.
evaluasi
pen enem mua uan n penemuan
yaitu
in informasi
Proses proses
b ru ba baru
dengan
fakt kta atau hipotesis hip ipotesi is yang sebelumnya sebe se belu lum mnya telah ah dibuat fakta l alu dipresentasikan dip ipre r sentas sik ikan an dalam bentuk ben entuk yang g sesuai sesuai dengan lalu kein ingi gina nan. keinginan.
2.2.2. 2. Artificial Neuron Network (ANN) Artificial Neuron Network (ANN) atau u Jaringan Jari Ja ring n an n Sar raf Saraf
Tiruan
pe engetahuan pengetahuan
adalah
yang
sebuah
mengadopsi
konsep
sistem
reka kaya y sa a rekayasa
a kerja
sar raf saraf
ma anusia. Metode ini dapat digunakan untuk pengenalan pengena alan n manusia. po pola,
klasifikasi
ANN memiliki memi mili liki ki 3 pemrosesan
dan
dan
peramalan.
Dalam
bag agia ian yaitu yait ya itu u bagian bagi ba gian an bagian bagia an bagian
output
de esai ainnya ya, desainnya,
input, bagian bagi gian an input,
(Prasetyo,
20 012 12). 2012).
Inpu In p tan pada ANN ini dapat berupa vector sehingga seh ehin ingg gga Inputan perh pe rhit itun unga gan n dalam dala da lam m ANN ANN dapat da apa pat t dilakukan dil di laku kuka kan n untuk untu un tuk k masalah masa ma sal lah perhitungan ya ng kompleks kom ompl plek eks dengan deng de ngan a mudah. mud uda ah. yang Dalam prosesnya, a, metode metod ode ANN ini digunakan untuk melakukan peramalan n dan pengenalan pe engenalan pola dalam data mining.
Untuk
melak kukanny ya, melakukannya,
ANN
memerlukan
proses
pelatihan agar dapat t melakukan mel lakukan prediksi kelas dari suatu data uji coba. Dalam Dal alam proses penambangan data, k f i aktivasi k i i yang digunakan di k k ANN menggunakan fungsi untuk membatasi
keluaran
dari
bagian
pemrosesan
atau
neuron agar sesuai dengan batasan yang diinginkan. Terdapat
berbagai
algoritma
15
yang
dapat
digunakan
untuk menggunakan metode ini. Salah satunya adalah algoritma Backpropagation. Algoritma
Backpropagation
adalah
salah
satu
g y g digunakan g p algoritma yang untuk melakukan pelatihan AN NN. Algoritma ini ini n pada metode ANN. bersifat nonlinear t mengatasi berbagai masalah masa salah yang rumit. yang dapat Algoritm tma ini Algoritma dan
mem mil i iki dasar matematis matemati is yang tinggi memiliki
dilati ih dilatih
di dimana
menggu guna naka kan n menggunakan
has sil hasil
sebelu lumn mnya y . sebelumnya.
atau
Pa Pada
meod me ode e meode
belajar
tebimbing
suda d h sudah
di diketahui
a tujuannya
algoritma
ini n , ini,
jari ja ringan jaringan
akan
dibe di beri rikan n sepasang pola yang merupakan merupak akan masukan mas asuk u an dan diberikan pola yang yang diinginkan. Ketika pola dimasukan dimasu sukan ke dalam dal lam a pola j rin ja ngan jaringan
maka
bobot-bobot
akan
diu ubah h diubah
un k untuk
memp mperkecil perbedaan pola keluaran dengan pola pol la yang y ng ya g memperkecil dii inginkan. Pelatihan ini dilakukan berulang-ulang berula ang-u -ula l ng diinginkan. se ehingga memenuhi pola yang diinginkan, sehingga ber rsifa at Algoritma ini mendukung jenis ANN yang bersifat la aye yer r atau biasa bias bi a a disebut dise seb but Multi Mult lti i Layer Precepton P ecepto Pr ton n multi layer in ni terdiri dari 3 layer yaitu yai aitu tu (MLP). Pada algoritma ini t. layer input, layer tersembunyi dan layer output.
Gambar 2.1. Arsitektur Multi Layer Precepton (Haselstainer & Pfurtscheller, 2000).
16
Pada gambar di atas dapat dilihat arsitektur dari algoritma ini. Dicontohkan dengan gambar diatas diketahui
terdapat p
tersembunyi
dan da an
layer y
satu
output p
layer r
lalu
input.
satu Pada
layer y layer
tersembunyi tersembuny yi ini dapat dibuat lebih h dari satu layer. Proses yang yang berjalan a pada pada algoritma algo g ritma ini i adalah nilai diki irim dikirim
mela lalu lui i melalui
sa am mpai sampai
ke
tersem embu buny n i tersembunyi Pelatihan Pe Pela lati tihan
la aye yer r layer
layer layer
inpu in put t input
output.
memiliki memiliki
pada
k ke
Pad ada Pada
fungsi
algoritma
layer
tersembunyi tersembunyi
n bagian
akti iva vasi si aktivasi
Backpropagation Backpropag agatio ion n
layer
sig gmoid. sigmoid. memiliki m mi me ili l ki
pr pros oses seperti berikut. Yang pertama adalah adala lah h proses pros ses e proses Inisi ialisasi yang digunakan untuk memberikan member rikan an nilai nil i ai i Inisialisasi a wal l terhadap nilai yang diperlukan seperti seper rti bobot. bobo bo b t. awal Lal lu yang kedua adalah Aktivasi yang akan melakukan mela aku kuka an Lalu pe erhitungan aktual output pada layer tersembunyi tersemb bunyi dan dan n perhitungan la ayer layer
output.
Selanjutnya
ya yaitu
menghitu tung ng menghitung
eror
adalah
pada
Pelatihan
lay ayer e layer
Bobot t Bobot
tersembun uny yi tersembunyi
dan dan
layer output dan mengganti men engg g an nti bobot bobot dengan bobot yang yang baru dan terakhir adalah ah Iterasi yang akan mengulang mengu gula lan ng pr ros oses ini hingga mendapat eror yang minimal. minim imal al. . Pada Pa proses al lgo gori ritm tma a ini, ini, proses pro rose ses s pelatihan pela pe lati tiha han n memiliki memi me mili liki ki dua dua a fase fase algoritma ut utam ama a. Fase Fase e yang pertama, pertama, inputan inputa tan n utama. ini
di diberikan
a pada
lay yer layer
pad ada a algoritma algo al goritma pada
input
pad da pada
jaringan.
Kemudian inputan akan ak kan diteruskan dite eruskan ke dalam layer – layer tersembunyi hingga hingga menghasilkan nilai output di
layer
output.
Fa ase Fase
kedua kedua
yaitu
akan
dihitung
nilai eror dari hasil output ou utput jaringan dengan output yang
sebenarnya sebenarnya.
Kemudian
hasil
tersebut
dikembalikan ke layer tersembunyi hingga kembali ke layer
input
dimana
saat
17
proses
pengembalian
ini,
bobot nilai akan diubah untuk agar mendapatkan hasil output yang lebih akurat (Prasetyo, 2012). Backpropagation
Klasifikasi
memiliki
metode
y g digunakan g p j p yang untuk melakukan pembelajaran terhadap kumpulan data dan da kemudian memetakan mem emetakan masing-masing data yang terpilih te sa ke dalam salah satu dari kelompok kelas yang ya ditetapkan sebelumya. a. Tujuan dari telah ditetapkan klas sifikasi i yaitu yait ya i u memperkirakan memp me mper erki kira raka kan n kelas ke elas yang ng dimiliki klasifikasi da dari
sua u tu suatu
ob bjek objek
dimana
ob bje ek objek
te t tersebut
belum
diketa tahu hui i labelnya. labe beln lnya. Proses klasifikasi klasi sifi f kasi i ini ini melakukan melak a ukan diketahui pr pros oses es proses
pencarian pencarian
model
atau
fung gsi fungsi
yan ang g yang
da dapat
me menj njela askan atau membedakan kelas dari data data tertentu terten te ntu t menjelaskan (Han, , et al., 2012). Untuk mengukur kualitas kua alita tas s dari d ri da k las sifikasi dapat digunakan perhitungan berikut ber riku ut ini: in klasifikasi
2. .2.3. Temporal Data Mining 2.2.3. Temporal Data mining pe ena n mbangan n penambangan
data ta data
yang
adalah
sebuah
dila di lak kuka kan n dilakukan
pada
te eknik k teknik databas ase e database
temporal. Database temporal tem empo ora ral merupakan database yang yan ang g memiliki
data
me m mili mi liki ki memiliki
fak akto tor r faktor
da d tab base database
ber ersi sifat bersifat
pa da pada
data a data
tertentu. berarti
bersif fat bersifat w ktu. wa waktu. time time
terseb but u tersebut Dengan
melakukan
temporal
art rtin iny ya artinya temp te mpor oral temporal
Seb bua uah h Sebuah
data data
pad ada a pada
series series
yan ang yang
artinya i a artinya
ter rsusun tersusun
ka ata kata
yang
la ain, lain,
analisis
berd be rdas asar arka kan berdasarkan
temporal
data
penambangan
data
ni nilai waktu mining yang
mempertimbangkan pengaruh pen ngaruh waktu (Mitsa, 2010). Pada penambangan data ini, unsur uns sur kompleksitas akan muncul dikarenakan
n penggalian
data
dan
pemrosesan
data
dil k k b d k k l dilakukan berdasarkan runtun waktu tertentu. Dalam penerapannya,
penambangan
data
temporal
ini
dapat
digunakan untuk melakukan klasifikasi serta prediksi suatu
data
yang
akan
datang.
18
Klasifikasi
pada
temporal data mining dilakukan berdasarkan analisis trend
dan
pola
tertentu
berdasarkan
waktu
(Shahnawaz, et al., 2011). Klasifikasi dan prediksi dalam
penambangan
data
temporal
ini
berdasarkan
pergerakan nilai data dat ata pada da suatu sua u tu interval waktu yang diketahui bahwa bahw hwa pola-pola data yang yan ang muncul pada masa lalu dapat at terulang. g Perbed daa aan n utama utam ma antara anta an tara ra klasifikasi kla lasi sifikasi statis sta t tis yang Perbedaan bi iasanya ya biasanya
dil ilak akukan dilakukan
dengan
kl las sif i ikas asi klasifikasi
d pada
data
tempor oral al sangat sanga gat t jelas terlihat t pada pada dimensi dime di mensi waktu. waktu. temporal Pa da klasifikasi klasi sifikasi statis, tidak ada hubungan hub bun unga gan n antara anta t ra Pada sa tu data da ata dengan data yang lain, sehingga sehingg gga data data dapat dap pat a satu d por di rses diporses
secara
satu
per
satu
atau
ind div ivid idua u l. . individual.
B erb beda degan klasifikasi yang dilakukan pada pad da data d ta da a Berbeda tem mporal, proses dilakukan pada sebuah set data data a yang y ng ya temporal, be erurutan berurutan
dari
kl lasifikasi klasifikasi pe pendekatan temporal
kumpulan
temporal unt ntuk uk untuk
data, data,
data.
data
ini,
melakukan
yai aitu tu yaitu
Dalam
terdapat
pem emro r sesan pemrosesan
Ex xte tern rnal l External
Temporal
dan Internal Temporal Processing
pros ses s proses 2
da ata data
je s jenis pad ada a pada
Processi sing ng Processing
(Haselstaine ner r & (Haselstainer
Pfur Pf urtscheller, 2000). Pfurtscheller, a. Exte tern rnal Temporal Tem e pora ral l Processing Proces Pr ssi s ng g External E xternal External bahwa
Tempo poral Temporal
pengolaha an pengolahan
data
Processing temporal
me emi mil liki memiliki dimana
arti
dimensi
waktu dari kumpulan kumpu pulan data da ata tersebut ditangani di luar proses klasifikasi. klasif i ika asi. Gambar 1 di bawah ini dapat menunjukan proses pro oses dari External Temporal Processing.
19
Gambar 2.2. Gamb bar 2 .2. External Temporal Tem mpo poral Processing Processi sing (Haselstainer (Ha (H aselst tai ainer & Pfurtscheller, Pfurtsch chel eller, 2000). 200 000) 0). Dari Da
gambar
1
di
atas,
dapat
dilihat dil lih hat
bahwa bah ahwa
pr roses ini membentuk sebuah pola yang yan ang digunakan digu di gunaka an proses sebagain sebagain sebuah
inputan subset
untuk yang
klasifikasi terdiri
dari
men ngg ggun unak a an n menggunakan data ta-d -data data-data
in ndivi idual al individual. Singkatnya, kumpulan data individual akan
dibentuk
ulang
menjadi
sebuah
po ola pola
ya g yang
ters rsebut t lebih besar. Dari pola yang terbentuk tersebut mer ere eprese ent ntasikan bentuk bentuk k baru ba kumpul lan akan merepresentasikan dari kumpulan data
temporal
ya ang yang
dari
kumpulan
data
dibe di bent ntuk uk dibentuk
ada ada
sebelumnya.
individual
den enga g n dengan
Pola
tersebut
meng me nggu guna naka kan n menggunakan
baru baru dap apa at dapat
perh hit itun ung gan perhitungan
statisti tika ka. statistika. Ke Keuntungan proses
uta ama utama
dari dari
klasifi ikasi klasifikasi
menggunakan
mod del model
pendekat atan an pendekatan
dapat dapat
ini ini
dilakukan
kla asifikasi klasifikasi
yang
yaitu dengan
sederhana
i untuk untu uk pola yang statis. Proses yaitu klasifikasi yang
kompleks
pembentukan
pola
a an ak akan baru
individual.
20
terdapat
pada
dari
kumpulan
proses data
b. Internal Temporal Processing Pada
pendekatan
dilakukan
bersamaan
ini,
dimensi
dengan
waktu
proses
akan
klasifikasi.
Sehingga gg satu buah data individual dari kumpulan p data
temporal tempora ral l
juga
akan
menjadi m njadi me
Gambar untuk diklasifikasikan. di r dapat dapa pat menunjukan menunjuk kan proses dari
satu
inputan
2 di bawah ini Internal Inte ern r al Temporal
P rocessi ing ng. . Processing.
Gambar Gamb Ga mbar ar 2.3. 2.3 .3. Internal In al Temporal Tem empo pora ral l Processing Pr Pf (Haselstainer & Pfurtscheller, 2000). Pad suatu sua atu waktu wak a tu tertentu hanya ha any ya akan ada ada satu sat atu u Pada data data ta dari dar ari i kumpulan kumpul ku ulan an data dat ata a temporal temp por oral al yang yan ang g digunakan diguna di naka kan seba se bag gai satu satu inputan inp nputan dalam dal alam proses prose ses klasifikasi. klas kl asif ifik ikas asi. sebagai klasif fik i asi juga akan dilakukan Di dalam proses klasifikasi pengolaha an data dengan metode-metode proses pengolahan dat a a yang yan ng akan diproses. tertentu untuk data Electroencepha alo l gr graphy (EEG) 2.2.4. Electroencephalography Electroencephalogr raphy Electroencephalography atau
EEG
merupakan
teknik untuk merekam aktifitas listrik yang ada di otak
dimana
analog
hasil
perekaman
EEG
merupakan
sinyal
(Andrzejak et al., 2001). Teknik penempatan
electrode
pada
saat
perkaman
21
EEG
yang
biasa
digunakan adalah system international 10-20. Berikut ini letak elktrode dengan system internasional 1020.
Gambar 2.4. Penempatan Elektrode dengan Sistem m Internasional 10-20. Pe ene nemp mpat atan an Penempatan
elekt k roda a elektroda
adalah
penempatan
Ha Hasil
dari
(Song, 2011)
pad ada a pada
elek el ektroda elektroda
perekaman
gamb ga mbar ar gambar
2.4
dipermukaan
aktifitas
diata tas s diatas kepa pala la. kepala.
k listrik
dar ari dari
pe pene nemp mpat atan an electrode ele lect ctro rode de ini akan aka kan menggambarkan meng me ngga gamb mbar arka kan n kondisi kond ko ndi isi penempatan ge gelo l mban ng yang yang ng ada ada pada pad da otak. otak k. gelombang Terdapat 4 gelombang gel lombang g yang akan terekam dalam EEG.
Yang
pertama
h adalah
gelombang
alfa,
beta,
theta, dan delta serta ser rta gamma(Nandish gam mma(Nandish et al., 2012). Gelombang alfa adalah h gelombah gelo lombah dengan frekuensi 8-13 Hz
yang
akan
muncul
l i mengalami
k di i kondisi
Gelombang
alfa
pada pada
saat
il k rileks
t atau
dapat
digunakan
seseorang t mata untuk
sedang
t t t tertutup. melihat
kenormalan suatu fungsi atau kerja otak. Gelombang beta adalah gelombang yang memiliki frekuensi 13 Hz
22
hingga
30
Hz
yang
timbul
ketika
berpikir atau melakukan aktifitas.
orang
Gelombang theta
adalah gelombang dengan frekuensi 4 Gelombang ringan
theta
atau
muncul da ala lam m dalam
pada
saat
kead adaa a n keadaan
sedang
sampai 8
seseorang
senang.
Hz.
tidur
Sedangkan
de elt lta adalah gelombang ng yang berfrekuensi gelombang delta yai aitu sekitar sekit tar 0 sampai 4 Hz yang rendah yaitu
biasanya
ul pada saat seseorang ses eseo ora rang ng tidur t id idur nyenyak. nyenyak ak. Gelombang muncul i dapat digunakan digu di guna n kan untuk k mengidentifikasi meng me ngid iden e tifikasi si kondisi ini patholog ogic i pathologic
seseo ora ran ng seseorang
seper rti seperti
terjadi i ny nya terjadinya
ka luka
atau
infe feks ksi, i, serta ser erta penyakit seperti kanker, kanker ka r, tumor, t mor, dan tu infeksi, epil ep ile epsi i. Terakhir adalah gelombang gamma. ga amm m a. . Gelombang Gel elomba bang epilepsi. ini berfrekuensi be ini deng gan dengan
yan ng berkaitan berk be rkaita an lebih dari 30 Hz yang
aktifitas
otak
untuk
mengin ntegr ras asi ikan n mengintegrasikan
ber rmacam rangsangan. bermacam Data
hasil
me enggunakan menggunakan ko kondisi
perekaman
komputer
sese eor oran ang. g. seseorang.
untuk
Hasil
EEG
akan
mengetahui men enta tah h mentah
diol lah h diolah
hasil
dari
G EEG
atau u atau
adala lah h adalah
sed edan angk g an n pada pad ada komputer hanya dapat dap apat at sinyal analog, sedangkan membaca
data
pe era rangkat perangkat dapa pat t dapat
digital.
Analog
meng me ngub ubah ah mengubah
me enj njad adi i menjadi
siny nyal sinyal
to
Maka
Digital
sin inya yal l sinyal
dari
Converter
anal an alog og analog
dig i ital l digital
itu
dibutu tuhk hka an dibutuhkan (ADC (A DC) (ADC)
kon onti tiny nyu u kontinyu
yang yang
dapa da pat t dapat
dari dari
diba di baca ca dibaca
ya yang EEG oleh
komputer. t komputer. Co omponent Analysis dan Independent 2.2.5. Principle Component Ana alysis Component Analysis Metode pengolahan Analysis
c statistic sinyal
(PCA)
dan
yang yang ad adalah
sering
digunakan
Principal
Independent
Component
untuk
Component Analysis
(ICA). PCA sebuah metode yang dapat digunakan untuk mengekstraksi informasi atau parameter dari kumpulan data yang besar seperti data hasil perekaman sinyal
23
EEG. Parameter yang dapat digunakan pada PCA untuk mengekstraksi data EEG adalah rata-rata, varian, dan standar
devisasi.
Independent
Component
Analysis
(ICA) merupakan metode yang digunakan untuk mencari informasi yang tersembunyi ter rse sembunyi i dari dar a i kumpulan data dimana informasi
ya yang
ditelusuri
adal ad a ah adalah
faktor
yang
independen en secara statistik s atistik dan non gaussian. st ga Metode ini banyak ba digunak kan n untuk unt ntuk uk pemrosesan pem e rosesan data d ta sinyal da digunakan sep perti data ta EEG. E G. Parameter EE Paramete t r yang yang sering digunakan d gunakan di seperti u ntuk mengekstrak meng me n ekstra ak data data sinyal sin inya yal l EEG pada pada metode metod ode ini untuk adal alah ah skew wness dan kurtosis adalah skewness para pa ram mete er parameter
ini
stat st a is stic. statistic.
masuk
Dalam
hal
dalam
(C Coh ohen, 2014). 2014 20 1 ). Kedua K dua Ke (Cohen, golongan
pengolahan
high gher er higher
l, sinyal,
ord rder order
par ara amete er parameter
h igh her order statistic lebih merepresentasikan merepresenta asika an data data a higher kar rena informasi yang penting lebih terdapat terda apat t pada pada karena pa arameter parameter
ini.
Kedua
metode
ini
digunaka an digunakan
uk untuk
me enggambarkan dan merepresentasikan dua kondisi kondis i i data da a menggambarkan ap pabila apabila
data
sinyal
terdistribusi
apabila
da data
sin nya yal sinyal
terdistribus te usi i terdistribusi
Berikut
ini
h adalah
parameter parameter
Gaussi ian n Gaussian
an dan
non-Gaussi ian non-Gaussian
statistik
yan ang g yang
d gunakan untuk analisa sinyal EEG : di digunakan a. Ra ata ta-r rat ata a (Mean) (Me Mean an) ) Rata-rata Mean Mean
merupak kan a merupakan
nilai i nilai
i dari
ukur uk uran an ukuran
ten endensi tendensi
sentral l yang didefinisikan didefin nisika an sebagai nilai nil lai i rata-rata dari
kumpulan
data a. data.
i Nilai
mean
didapatkan
dengan
menghitung jumlah semua semua nilai nilai dalam kumpulan data kemudian
membagi
pen njumla ahan penjumlahan
data
tersebut
dengan
banyaknya jumlah kumpu ula lan n data tersebut. kumpulan
b. Standar Deviasi (Standard Deviation) Standar
Deviasi
merupakan
ukuran
sebaran
(dispersi) suatu distribusi. Jika suatu distribusi
24
rata maka nilai standar deviasinya kecil sedangkan jika
suatu
standar
distribusi
deviasinya
berfluktuasi
besar.
Standard
maka
nilai
deviasi
adalah
sebuah nilai yang menunjukan seberapa banyak variasi yang terdapat pada a mean mean atau atau nilai yang diharapkan. Standard deviasi devia iasi dari sebuah varibel var rib i el acak, populasi statistik k, statistik,
kumpul u an kumpulan
data
at tau atau
distribusi
probab abi ilitas adalah h akar ak r kuadrat kua uadr drat dari varian. va arian. Nilai probabilitas sta andard deviasi dev evia iasi s yang rendah rend dah menunjukan men enun unjukan nilai ni standard dari d ata-da ata yang ada ad da itu it dekat d ka de kat t dengan nilai nil ilai mean a atau data-data nila lai i yang y ng ya g diharapkan. diharapkan. Nilai standard stand ndard deviasi devi de v asi yang nilai ting ti nggi g menunjukkan bahwa nilai dari data-data data a -da data t itu tinggi menunjukkan itu ja u jauh
dari nilai mean atau dari
nilai
dih ihar ara apkan n. yang diharapkan.
S tan ndard deviasi secara umum dapat digunakan digun nak a an n untuk untuk k Standard men ngetahui seberapa dekat semua variasi data t dengan den engan mengetahui ni ilai mean dari data-data tersebut. Standard d deviasi si nilai pe enting untuk menunjukkan seberapa besar perbedaan perbeda daan n penting da ari sekumpulan data yang ada dengan nilai m ean n atau au dari mean nilai yang yang diharapkan. diharapka kan n.
c. Skewness Sk Skew e ness Skewness
mer erup upak akan an merupakan
me mendefinis isik ikan mendefinisikan ke kesi s metris isan kesimetrisan
par aram amet eter parameter
pen e yi imp mpan ang gan penyimpangan
distrib ibusi distribusi
ata au atau
normal normal
uk kuran n ukuran
ya yang
k miring ke gan kemiringan
dari
u atau
Gaussi sia an Gaussian
pada
sekumpulan data. Nilai Ni ilai sk kewness akan bernilai nol skewness jika distribusi data t simetris dengan
baseline dan
sebaliknya, nilai sk skewness ss bernilai tidak nol jika tidak
simetris
ter rha h da ap terhadap
baseline.
Nilai
dari
parameter ini akan bernilai ber rni nilai positif jika ekor lebih condong ke kanan dan akan bernilai negatif jika ekor lebih condong ke kiri.
25
2.5. Gambar 2 .5 5. Parameter P rame Pa eter Skewness Skewne ess s d. Ku urtosis Kurtosis K urtos sis adalah parameter pa uk kur uran a yang g mendefinisikan mendefin me nisikan Kurtosis ukuran kepu punc ncak akan kepuncakan
atau
kedataran
suatu
dist stri rib busi distribusi
pada pada
ku kump mpulan n data. Terdapat 3 jenis distribusi distri ribusi i yang yang ada ada kumpulan pad parameter ini. Yang pertama yaitu leptokurtic pada lept ptok okurti ic y ng ya g akan terjadi jika nilai kurtosis positif posi s ti if atau u yang leb bih lebih
besar
si ingkat singkat di ibanding dibanding
dari
apabila
distribusi nilai
distribusi
normal
kurtosis normal.
ata au atau
lebih
Yang
sec se cara a secara
berpuncak ak berpuncak
kedua
adal alah h adalah
di istribusi mesokurtic c apa bila nilai kurtosis adalah adala ah distribusi n jika jika nilia nil ilia kurtosis kurtos osis b erni er nila lai i negatif maka ma aka nol dan bernilai distri ibu bus si platykurtic. disebut sebagai distribusi
Gambar 2.6. Parameter Kurtosis
26
2.2.6. Waikato Environment for Knowledge Analysis (WEKA) WEKA merupakan perangkat lunak yang menyediakan y p g layanan untuk melakukan pengolahan data dalam data Perangka kat t lunak ini berbasis berb be r asis open source dan mining. Perangkat dibuat
menggunakan menggunakan
dikemban angkan dikembangkan Baru u. Baru.
A WEKA
oleh
Java.
WEK EKA A WEKA
Universitas
mer erupak kan merupakan
dibuat
o Waikato
per eran angk gkat at perangkat
lunak
di
dan
Selandia
gra r tis gratis
yang
te ersedia a dibawah dib baw awah General Public ic License. Licen ense. Perangkat Pe tersedia memi me mili l ki fasilitas fasilitas untuk melakukan mel elak a ukan an preprocessing preproce pr essing ini memiliki data da ta, , data,
cl classification,
regression on, regression,
clus cl usteri ring, clustering,
asso as sociat ation rules, dan visualiszation. association s Java Java yang yang g Di dalam WEKA terdapat library kelas leng ngkap lengkap
untuk
pem mbelajaran pembelajaran
melakukan
dan
implementasi
algoritma
data
met tod o e metode
mining.
me n mesin
K mu Ke muda daha an Kemudahan
da ari aplikasi WEKA ini adalah library kelas yang ada ada a dari da apat dapat
digunakan
secara
bebas
pada
aplikas si aplikasi
lain. . lain.
Ba s yang yang ada pada a WEKA WEK dij ija alanka kan n Bahkan, kelas dapat dijalankan pada
apl lik ikasi aplikasi
b rb be rbas asis berbasis
web eb. web.
Hal
ini ini
memungkink nkan an memungkinkan
kan berbagai teknik dan metode meto me tod de pengguna untuk menerapka menerapkan data mining g pada weka untuk data yang inigin inigi gin n mereka mere me reka data ol lah sendiri sen endi diri ri tanpa tan anpa pa memperhatikan mem e pe perh rhat atik ikan an platform plat pl atfo form rm m komputer kom ompu puter olah ya ang digunakan. dig igun unak kan. (Witten, (W Wit itten, Frank Fra ank & Hall, Hal a l, l 2011) 201 011) 1) yang
Gambar
2.7. Tampilan Awal WEKA
27
WEKA mulai dikembangkan sejak tahun 1994 dan telah menjadi software data mining open source yang paling
popular.
WEKA
mempunyai
kelebihan
seperti
mempunyai banyak algoritma data mining dan machine learning, kemudahan kemudaha han n dalam dalam penggunaannya, pe selalu upto-date
deng ngan dengan
algoritma-alg gor oritma algoritma-algoritma
yang
baru.
Software e WEKA tidak hanya digunakan n untuk akademik saja
namun
cukup
ban anya yak k banyak
dipa di p kai dipakai
h oleh
perusahaan
un ntuk meramalkan mera ama malk lkan a bisnis bisnis dari d ri suatu da sua uatu t perusahaan. perusah ahaan. Ian untuk H.
Wit itte t n Witten
kesu suks kse esan kesuksesan
me eru rupakan merupakan WEKA.
lata la tar latar
Beliau
bela aka kang belakang
merupa aka k n merupakan
dibalik dibalik
prof pr o esor r profesor
di
Un Univ iversi sitas of Waikato, New Zealend, yang ng menekuni men e ek kuni Universitas Di Digita tal Library, Text Mining, Machine Learning L ar Le rni ning n dan da an Digital In I formation fo Information me etode metode
Retrieval.
pemilihan
Pada
variable
Weka dari
a ada
bebe eberapa a beberapa
suatu
da ata tase s t, dataset,
di iantaranya BestFirst, ExhautiveSearch, FCBFSearch, FCB BFSearch h, diantaranya G eneticSearch, GeneticSearch,
GreedyStepwise,
Rac ceSear rch, RaceSearch,
R andomSearch, Rankerdan, RankerSearch. Metode Meto ode atau ata au RandomSearch, Teknik yang yan ang g digunakan diguna akan Weka We eka adalah h Descriptive data
Weka Weka
preprocessing,
re regr g ession, i , regression, Se S mua Semua
karena
te ekn knik ik teknik
Wek e a Weka
mendukung
clustering,
visu vi sual aliz i ation, n, visualization, adal ad alah adalah
Predictive dan dan
dan dan
teknik-tek kni nik k teknik-teknik classifica cati tion on, classification,
f eat ture feature
did idasar arka kan didasarkan
Red educ ucti tio on. Reduction.
a pada
asumsi asumsi
ba bahw h a data da ata tersedia a sebagai sebaga gai flat file fil ile e tungggal tungg ggg gal atau bahwa hubungan, dimana setiap se etiap titik ti itik data digambarkan oleh sejumlah tetap atribut atr ribut (biasanya, (b biasanya, atribut numeric atau
nominal, tetapi p
juga
didukung).
beb berapa jenis atribut lain beberapa
WEK KA WEKA
memiliki memiliki
empat
jenis
test
option yang dapat digunakan digu gunakan untuk melakukan proses klasifikasi.
Proses
yang
ditangani
adalah
proses
pelatihan dan pengujian. Keempat jenis test option tersebut yaitu:
28
a. Use training set Klasifikasi untuk data
ini
melakukan yang
akan
menggunakan
pelatihan.
dilatih
satu
Kemudian
sebelumnya
juga
data
seluruh digunakan
untuk proses pengujian. pengujian n. b. Supplied d test set Klas sifikasi ini in ni dilakukan evaluasi evalua uasi dengan cara Klasifikasi m emprediksi memprediksi
sebe se bera rapa pa seberapa
bai aik baik
satu
dat a aset dataset
yang
diambi il dari da seb buah data data tertentu ter ertentu yang n memang diambil sebuah su uda dah sudah
dise ediakan k disediakan
pela pe l ti iha han pelatihan
unt ntuk uk untuk
akan
meng nggunakan menggunakan
pengu guji jian. pengujian.
Proses
terle lebi bih h terlebih
da ahulu dahulu
kem mud u ia an kemudian
pros ses proses
dilakukan
data
latih
p engujian akan dilakukan dengan data da ata t uji uji yang yan ng pengujian berbeda
dengan
data
yang
dila atih dilatih
a pada
klasifikasi. c. Cross-validation Klasifikasi
ini
cross-validation yang ng
tertentu tertentu
dilakukan dan
yang
evaluasi
menggunakan dapat dapat
den ngan n dengan
juml lah jumlah
dii iinp nputkan diinputkan
fo old d fold
manual al. . manual.
Pada cross-valida dati ion akan ada pilihan berapa ber rap apa a cross-validation fold d yang akan digunakan. Nilai fold d awal awa al yang yan ya ng dib di berika ikan n diberikan
adal ad alah a adalah
dila aku kuka kan dilakukan
sebany se yak sebanyak
0. 10.
Pro rose ses Proses
ai nilai
p ng pe guj ujia ian n pengujian
fol old d fold
y ng ya yang
ak akan
dib iber erikan diberikan
sert rta a akan dibentuk diben entuk subset su seban anya yak nilai nila lai i fold. serta sebanyak Kemudian
pros ses proses
menggunakan sisany
se ebuah sebuah
akan
pe engujian pengujian su ubset subset
akan
yang
dig gunakan digunakan
dilakukan
terbentuk
dan
untuk
proses
evaluasi
dengan
pelatihannya. d. Percentage split Klasifikasi
ini
dilakukan
melakukan pembagian data antara data uji dan data latih pada satu dataset dengan menggunakan prosentase.
Prosentase
29
yang
diinputkan
akan
digunakan
untuk
proses
pelatihan
dan
sisanya
akan digunakan untuk proses pengujian. Proses ini biasanya dilakukan dengan perbandingan 2/3 data
untuk
pelatihan
dan
1/3
data
digunakan
untuk proses pengujian. pengujian n. Klasifik ikasi data pada Weka ka dapat menggunakan Klasifikasi deng ngan memanfaatkan memanfa f atkan algoritma Backpropagation. B ckpropagation. Ba ANN dengan a Weka, ANN diberi dib ber eri i nama nama Multilayar r Precepton. Pada Ja yan ng ada pada Weka Wek eka a dapat dap da pat dibuat at dengan Jaringan yang cara
mem e berika an memberikan
di ibu butu tuhk h an n dibutuhkan dapa da pat dapat
oleh
pantau
pela pe atihan. pelatihan.
nilaii nila ilai i nilai-nilai jaringan. dan
Berikut
pada
yang
Jaring gan a ter erse s but juga Jaringan tersebut
dimodifikasi ini
par arameter er parameter
s lama se ma selama
prose s s proses
parameter-par ram a et eter er parameter-parameter
yan ng yang
dap pat digunakan untuk membangun sebuah jaringan jar aringa gan n : dapat a . momentum a. Parameter ini digunakan untuk menyesuaian men nyesuaia an bobot yang dimanfaatkan untuk menemukan menemuka an nilai ni ilai global
eror
Para rame met ter Parameter
yang
i ini
minimal
juga
dapat dapat
selama
pe elati tihan n. pelatihan.
mem empe percepat t mempercepat
prose ses s proses
pelatihan. Nilai i momentum mom omentum dapat diberika dati dat ti 0 hingga 1. b hiddenLayers b. hidd hi ddenLa Laye yers rs Para ame mete ter Parameter
in ini
digu di gun nakan n digunakan
u tu un tuk k untuk
i memberi
ju jumlah
laye yer r tersembunyi tersembuny nyi dari dar ri jaringan. n. Parameter Param met eter ini layer mendukung
pembuata pe an pembuatan
multilayer
dengan
menggunakan tanda ta anda koma a untuk memisahkan jumlah node yang dibuat at di tiap ti layer. c. trainingTime Parameter
ini
di igunakan digunakan
untuk
memberi
nilai
digunakan
untuk
memberi
nilai
epoch. d. learningRate Parameter
ini
pada laju belajar yang ada pada jaringan.
30