PEMBANGUNAN FUZZY CLASSIFIER UNTUK DATA POTENSI DESA 2003
Oleh : AHMAD SUHAIRI G64102014
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2007
ii
ABSTRAK AHMAD SUHAIRI. Pembangunan Fuzzy Classifier untuk Data Potensi Desa 2003. Dibimbing oleh IMAS SUKAESIH SITANGGANG dan WISNU ANANTA KUSUMA. Penelitian ini bertujuan untuk membuat suatu aplikasi data mining menggunakan fuzzy classifier. Konsep himpunan fuzzy dipilih karena lebih baik dalam menangani data numerik dan dapat ”memperhalus” batasan yang tegas. Aplikasi ini diterapkan pada data potensi desa di Indonesia tahun 2003. Data potensi desa 2003 memiliki 750 atribut dan 65536 record. Untuk kebutuhan penelitian diambil 5 atribut numerik (jumlah keluarga prasejahtera sejahtera 1, jumlah pengangguran, jumlah keluarga pengguna listrik PLN, jumlah bangunan permanen, dan jumlah murid SD yang drop-out) dan 10500 record data (7500 record untuk data training dan 3000 data untuk data tes). Aplikasi yang dibuat dapat dimanfaatkan untuk menentukan nilai dan kelas atribut yang belum diketahui berdasarkan aturan-aturan yang ditemukan. Ada beberapa proses yang harus dilakukan antara lain merubah data ke dalam himpunan fuzzy, membangkitkan aturan fuzzy, memprediksi nilai dan kelas data target, mengevaluasi performa akurasi dan rms, terakhir menyajikan informasi dalam bentuk grafik dan tabel. Setelah dicobakan dari berbagai data training dan data tes yang ada, didapatkan informasi sebagai berikut: Semakin banyak data training yang digunakan, maka jumlah aturan yang terbentuk semakin besar dengan kenaikan terbesar terjadi pada selang 1000 sampai 1500 data training. Semakin banyak antecedent yang ingin dibuat maka jumlah aturan yang terbentuk semakin sedikit. Semakin banyak data training yang digunakan, maka waktu untuk membangkitkan aturan juga semakin besar dengan kenaikannya secara linier. Banyaknya data training yang ada tidak berpengaruh signifikan dengan nilai akurasi dan rmse, yang mempengaruhi adalah nilai bobot dari masing-masing aturan. Persentase akurasi terbesar (80%) didapatkan jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 1000 data. Persentase terkecil (13%) didapatkan jika atribut targetnya C5 (Jumlah murid SD yang DO) untuk setiap jumlah data training yang ada. Evaluasi akurasi dan rmse akan mendapatkan hasil yang baik jika atribut yang dijadikan kelas target berasal dari atribut C3 (jumlah keluarga pengguna listrik PLN) atau C4 (jumlah bangunan permanen) dan digunakan sebagai model yang terbaik untuk memprediksi nilai dan kelas suatu data. Kata kunci: data mining, fuzzy classifier
iii
PEMBANGUNAN FUZZY CLASSIFIER UNTUK DATA POTENSI DESA 2003
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Oleh : AHMAD SUHAIRI G64102014
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2007
iv
Judul : Pembangunan Fuzzy Classifier untuk Data Potensi Desa 2003 Nama : Ahmad Suhairi NIM : G64102014
Menyetujui: Pembimbing I,
Pembimbing II,
Imas S.Sitanggang, S.Si., M.Kom. NIP 132 206 235
Wisnu Ananta Kusuma, S.T, M.T NIP 132 312 485
Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. Ir. Yonny Koesmaryono, MS NIP 131 473 999
Tanggal Lulus :
v
PRAKATA Alhamdulillahi Rabbil ‘alamin, puja dan puji syukur penulis panjatkan kepada Allah SWT atas segala curahan rahmat dan karunia-Nya sehingga penelitian ini berhasil diselesaikan dengan baik. Shalawat dan salam selalu tercurah kepada junjungan dan suri teladan kita Nabi Muhammad SAW. Topik yang dipilih dalam penelitian tugas akhir ini ialah data mining, dengan judul Pembangunan Fuzzy Cassification untuk Data Potensi Desa 2003. Penyelesaian penelitian ini tidak terlepas dari bantuan berbagai pihak, karena itu penulis mengucapkan terima kasih sebesar-besarnya kepada: 1. Ayahanda Syahril Anwar dan Ibunda Zar’ah atas do’a dan kasih sayangnya yang tak terhingga selama ini. 2. Ibu Imas S. Sitanggang, S.Si., M.Kom. selaku pembimbing I, Bapak Wisnu Ananta Kusuma, S.T, M.T selaku pembimbing II. 3. Ibu Annisa, S.Kom selaku dosen penguji. 4. Kakakku Huzaemah, Humairoh, Fitriah atas dukungannya kepada penulis baik secara materi maupun moril. Adikku Rosidah, Zainal, dan Zauzi yang selalu membuat penulis merasa nyaman tinggal di rumah. 5. Arsha Mustika atas bantuan bahan penelitiannya kepada penulis. 6. Ibu kost yang baik hati dan murah senyum, terima kasih atas tempat kosannya yang nyaman. 7. Teman-teman sekosanku Firman, Zaki, Adi, Erus, Laode, Tri, Tedi, Ahim, Wisnu, Arif, Joko, Wicak, dan Reza, segala kenangan indah di kosan tidak akan pernah penulis lupakan. 8. Teman-teman Ilkomerz 39, persahabatan dan persaudaraan kita yang indah selalu terikat dihati penulis. 9. Rekan-rekan DPM 2004, 2005, 2006 atas persaudaraan dan kebersamaannya, 10. Rekan-rekan LDK se-IPB atas perjuangan dan nasihatnya, 11. Seluruh staf dan karyawan Departemen Ilmu Komputer, serta pihak lain yang telah membantu dalam penyelesaian penelitian ini. Segala kesempurnaan hanya milik Allah SWT, semoga hasil penelitian ini dapat bermanfaat, Amin.
Bogor, Agustus 2007
Ahmad Suhairi
vi
RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 10 Oktober 1983 dari ayah Syahril Anwar dan ibu Ahmad Suhairi. Penulis merupakan putra ke empat dari tujuh bersaudara. Tahun 2002 penulis lulus dari SMU Negeri 29 Jakarta. Pada tahun yang sama penulis diterima di Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI). Selama mengikuti perkuliahan, penulis pernah menjadi pengurus Dewan Perwakilan Mahasiswa IPB mulai dari tahun 2003 sampai 2006 baik di tingkat fakultas maupun di tingkat pusat . Selain itu, penulis juga pernah menjadi pengurus DKM Al Ghifari IPB tahun kepengurusan 2003/2004. Pada tahun 2004, penulis pernah menjadi asisten praktikum mata kuliah algoritma dan pemrograman, dan pada tahun 2005 melakukan kegiatan praktik lapangan selama dua bulan di Kantor Pusat BNI 46 Jakarta.
vii
DAFTAR ISI
Halaman DAFTAR TABEL ......................................................................................................................... viii DAFTAR GAMBAR ..................................................................................................................... viii DAFTAR LAMPIRAN.................................................................................................................. viii PENDAHULUAN Latar Belakang ...................................................................................................................... 1 Tujuan Penelitian ................................................................................................................... 1 Ruang Lingkup Penelitian ..................................................................................................... 1 Manfaat Penelitian ................................................................................................................. 1 TINJAUAN PUSTAKA Data Mining ........................................................................................................................... 1 Knowledge Discovery in Database (KDD) ............................................................................ 2 Himpunan Fuzzy .................................................................................................................... 2 Fuzzy C-Means (FCM)........................................................................................................... 3 Pendekatan Fuzzy dalam Data Mining ................................................................................... 4 Pencarian Aturan yang Menarik dalam Data Fuzzy ............................................................... 4 Representasi Ketidakpastian .................................................................................................. 5 Proses Defuzzifikasi ............................................................................................................... 5 Integrasi Numerik dengan Metode Trapesium ....................................................................... 6 Pengukuran Keakuratan Prediksi ........................................................................................... 6 Root Mean Squared Error (RMSE) ........................................................................................ 6 METODE PENELITIAN Proses Dasar Sistem ............................................................................................................... 7 Lingkungan Pengembangan Sistem ....................................................................................... 8 HASIL DAN PEMBAHASAN Transformasi Data .................................................................................................................. 8 Pembersihan Data .................................................................................................................. 8 Seleksi Data ........................................................................................................................... 8 Data Mining ........................................................................................................................... 8 Pembentukan Himpunan Fuzzy ................................................................................... 8 Pembentukan Basis Data ............................................................................................. 9 Pembentukan Aturan ................................................................................................... 9 Prediksi Nilai ....................................................................................................................... 10 Evaluasi Pola ........................................................................................................................ 10 KESIMPULAN DAN SARAN Kesimpulan .......................................................................................................................... 11 Saran .................................................................................................................................... 11 DAFTAR PUSTAKA ..................................................................................................................... 12 LAMPIRAN ................................................................................................................................... 13
viii
DAFTAR TABEL Halaman 1 2 3 4 5 6 7
Atribut PODES 2003 yang telah ditransformasi ke himpunan fuzzy ......................................... 8 Nilai minimum dan maksimum untuk masing-masing atribut ................................................... 9 Banyaknya aturan orde ke satu (R1) untuk masing-masing data training ................................. 9 Banyaknya aturan orde ke dua, tiga, dan empat untuk masing-masing data training ............... 9 Jumlah aturan yang terbentuk untuk masing-masing data training ........................................... 9 Contoh aturan yang terbentuk dari 500 data training ................................................................ 9 Contoh perbandingan data prediksi dengan data sebenarnya .................................................. 10
DAFTAR GAMBAR Halaman 1 2 3 4 5 6 7
Proses KDD (Han & Kamber 2001) .......................................................................................... 2 Derajat record d dengan terminologi linguistik Lφr (Jang et al 1997) ...................................... 4 Pendekatan trapesium untuk menghitung integral dari suatu fungsi f(x) (Cheney et al. 1994) .................................................................................................................. 6 Jumlah aturan yang terbentuk pada jumlah data training yang ada .......................................... 9 Grafik hubungan jumlah data training dengan waktu pembangkitan ..................................... 10 Grafik hubungan jumlah data training dengan akurasi rata-rata tiap atribut target ............................................................................................................................ 10 Grafik hubungan jumlah data training dengan nilai rmse tiap atribut target .......................... 11
DAFTAR LAMPIRAN Halaman 1 2 3 4
Tabel-tabel yang ada di data.mdb ............................................................................................ 14 120 Aturan yang terbentuk dari 500 data training .................................................................. 14 Performa akurasi untuk masing-masing data training dan data tes yang ada .......................... 19 Nilai Root-mean-squared error (rmse) untuk masing-masing data training dan data tes yang ada ............................................................................................................... 20
1
PENDAHULUAN Latar Belakang Berkembangnya peralatan-peralatan untuk koleksi data dan teknologi basis data dewasa ini telah mendorong organisasi dan perusahaan untuk menyimpan data secara besar-besaran dalam basis data, gudang data, dan media penyimpanan lainnya. Tetapi permasalahan yang ada sekarang adalah melimpahnya data yang dimiliki, tetapi kurang dimanfaatkan untuk mendapatkan informasi dari data yang besar itu. Untuk mengatasi kesenjangan informasi ini, para ahli mengembangkan konsep data mining yang mengintegrasikan informasi data dari sumber-sumber yang berbeda, dan merancangnya dalam format yang sesuai untuk mengambil informasi-informasi yang tersembunyi sehingga berguna untuk membuat keputusan yang akurat (Hoffer et al. 2002). Salah satu teknik data mining yang digunakan adalah klasifikasi. Klasifikasi merupakan salah satu metode analisis data yang dapat digunakan untuk memperkirakan nilai beberapa atribut di dalam suatu basis data berdasarkan atribut-atribut lainnya (Au & Chan 2001). Sebagai contoh pihak instansi pemerintah khususnya dari PLN ingin menentukan jumlah keluarga pengguna listrik PLN di suatu desa apakah sedikit atau banyak berdasarkan jumlah keluarga prasejahtera sejahtera I atau berdasarkan jumlah pengangguran di desa tersebut. Ada beberapa konsep dalam mengklasifikasi data, salah satunya dengan konsep himpunan fuzzy. Konsep himpunan fuzzy dipilih karena dapat lebih dipahami manusia dan lebih baik dalam menangani data numerik. Contoh pengklasifikasian dengan himpunan fuzzy adalah ”Jika jumlah keluarga prasejahtera sejahtera I banyak maka jumlah keluarga pengguna listrik PLN banyak” Pada penelitian kali ini proses data mining akan diterapkan pada basis data mengenai potensi desa di Indonesia. Di dalam basis data tersebut terdapat 750 atribut dan tiap tahun mengalami update data. Khusus pada tahun 2003 data tersebut memiliki jumlah record sebanyak 65536. Dengan diterapkannya proses data mining ke data potensi desa diharapkan dapat menghasilkan informasi atau pengetahuan yang penting dan berguna sehingga mempunyai nilai guna lebih untuk keperluan di masa mendatang.
Tujuan Penelitian Tujuan penelitian ini adalah: 1 Menerapkan proses data mining menggunakan klasifikasi fuzzy untuk menganalisis suatu data potensi desa di pulau Jawa tahun 2003. 2 Mendapatkan aturan-aturan yang menarik dari data potensi desa dengan menggunakan pendekatan logika fuzzy. 3 Menentukan nilai dan kelas atribut yang belum diketahui berdasarkan aturan-aturan yang ditemukan. Ruang Lingkup Penelitian Penelitian ini hanya dibatasi untuk membuat aplikasi perangkat lunak yang digunakan untuk proses data mining menggunakan metode klasifikasi dengan menggunakan pendekatan logika fuzzy pada 5 atribut pada data PODES 2003 di pulau Jawa. Perangkat lunak tersebut dapat juga menghasilkan aturan-aturan dan yang selanjutnya digunakan untuk menentukan suatu nilai atribut yang belum diketahui nilai dan kelasnya. Manfaat Penelitian Penelitian bermanfaat agar data PODES 2003 yang diolah dengan aplikasi data mining, dapat digunakan untuk melihat pola keterkaitan antardata. Aplikasi tersebut juga dapat dimanfaatkan untuk mengisi nilai suatu atribut yang kosong pada data PODES 2003 berdasarkan nilai aribut lain yang telah diketahui dan menentukan kelas data dari nilai yang dicari. TINJAUAN PUSTAKA Data Mining Data mining merupakan kegiatan untuk mengekstrak atau ”menambang” pengetahuan atau pola yang menarik (non-trivial, implisit, sebelumnya tidak dikenal) dari sejumlah data yang besar (Han & Kamber 2001). Data yang akan diekstrak secara umum memiliki ciri-ciri sebagai berikut (Fayyad et al. 1996): - Basis data dengan ukuran yang sangat besar. - Memiliki dimensi yang tinggi, ditandai dengan besarnya jumlah field (atribut dan variabel) yang ada. - Pendugaan statistik yang signifikan seperti permasalahan mencari banyaknya kemungkinan dari model. - Data yang sering berubah-ubah. - Data yang kotor dan tidak lengkap. - Hubungan yang kompleks antara atributnya.
2
-
Permasalahan integrasi dengan sistemsistem yang berbeda. Data mining memiliki beberapa teknik yang dapat diterapkan, antara lain (Han & Kamber 2001): 1 Aturan asosiasi, merupakan teknik data mining untuk menemukan aturan asosiatif antara suatu kombinasi item. Penting tidaknya suatu aturan asosiatif dapat diketahui dengan dua parameter, support yaitu persentase kombinasi tersebut dalam basis data, dan confidence, kuatnya hubungan antaritem dalam aturan asosiatif. 2 Klasifikasi merupakan proses menemukan sekumpulan model (atau fungsi) yang menjelaskan dan membedakan kelas data atau konsep-konsep, dengan tujuan agar mampu menggunakan model tersebut untuk menentukan suatu objek yang label kelasnya belum diketahui. 3 Clustering. Tidak seperti klasifikasi dimana kelas data telah ditentukan terlebih dahulu, clustering melakukan pengelompokan data tanpa diketahui terlebih dahulu label kelasnya. Objek yang dikelompokkan tersebut didasarkan prinsip memaksimalkan kesamaan antar anggota dalam satu kelas dan meminimalkan kesamaan antarkelas. Knowledge Discovery in Database (KDD) Proses dasar sistem dalam data mining dapat dipandang sebagai proses KDD (Knowledge Discovery in Databases) (Gambar 1) yang memiliki beberapa tahap sebagai berikut (Han & Kamber 2001): 1 Pembersihan data: merupakan tahapan untuk membersihkan data. Pembersihan data mempunyai peran untuk menangani nilai– nilai yang hilang, meminimalkan pengotor data, dan membetulkan data yang tidak konsisten. 2 Pengintegrasian data: merupakan tahapan untuk menggabungkan data dari berbagai macam tipe data dan sumber ke dalam tempat yang terpadu. Sumber yang dimaksud bisa berupa beberapa basis data, kubus data, ataupun sebuah file. 3 Seleksi data: merupakan proses pemilihan data yang relevan untuk proses analisis. 4 Transformasi data: merupakan tahapan untuk mentransformasi data ke dalam bentuk yang sesuai untuk proses mining. 5 Data mining: merupakan proses inti dari KDD untuk melakukan analisis dari suatu data tertentu. 6 Evaluasi pola: berguna untuk mengidentifikasi pola yang benar-benar menarik untuk penyajian pengetahuan.
7 Penyajian pengetahuan: merupakan tahapan terakhir dengan menyajikan pengetahuan secara visual terhadap hasil proses mining.
Gambar 1 Proses KDD (Han & Kamber 2001)
Himpunan Fuzzy Sebuah himpunan fuzzy merupakan himpunan tanpa ada batasan yang tegas (crisp boundary) yaitu dengan memperhalus batasan yang tegas dengan fungsi keanggotaan. Fungsi keanggotaan memberikan himpunan fuzzy fleksibilitas dalam pemodelan yang secara umum menggunakan ekspresi linguistik seperti ”gaji rendah” (Jang et al., 1997). Jika X adalah sekumpulan objek yang dilambangkan secara umum oleh x, maka himpunan fuzzy A di dalam X didefinisikan sebagai himpunan pasangan sebagai berikut (Jang et al. 1997):
A = {( x, μ A ( x)) | x ∈ X }, dimana μ A (x) adalah fungsi keanggotaan untuk himpunan fuzzy A. Fungsi keanggotaan memetakan masing-masing anggota X dengan nilai antara 0 dan 1. Fuzzy C-Means (FCM) Fuzzy clustering adalah salah satu teknik untuk menentukan cluster optimal dalam suatu ruang vektor yang didasarkan pada bentuk normal Euclidian untuk jarak antar vektor (Kusumadewi 2002). Ada beberapa algoritma clustering data, salah satu diantaranya adalah Fuzzy C-Means (FCM). Fuzzy C-Means (FCM) adalah suatu teknik peng-cluster-an data dimana keberadaan tiaptiap titik data dalam suatu cluster ditentukan oleh derajat keanggotaan. Teknik ini pertama kali diperkenalkan oleh Jim Bezdek pada tahun 1981 (Kusumadewi 2002). Pada konsep dasar FCM, yang pertama adalah menentukan pusat cluster, yang akan menandai lokasi rata-rata untuk tiap-tiap cluster. Pada kondisi awal, pusat cluster ini masih belum akurat. Misalnya tiap-tiap titik
3
μ11[u1] μ21[u1] ... μc1[u1]
matriks
partisi
4 5
N
vfi =
…
…
…
…
μ1N[uN] μ2N[un] ... μcN[uN] dengan
∑μ i =1
ik
=1
yang berarti bahwa jumlah nilai keanggotaan suatu data pada semua cluster harus sama dengan 1.
c
7
2
∑ (μ k =1
) w uk
ik
−1
- jika yk = vf i, μik (yk) = 1, jika i = g; μik (yk) = 0, jika i ≠ g; Modifikasi matriks partisi sebagai berikut:
μf(c) =
μ12[u2] μ21[u2] ... μc1[u2] μ1N[uN] μ2N[un] ... μcN[uN]
8
Hitung fungsi obyektif: N
c
2
k =1 i =1
)w
9
Euclidian yang digunakan sebagai jarak antara uk dan vf i (Kusumadewi 2002). Algoritma FCM adalah sebagai berikut (Kusumadewi 2002): Tetapkan matriks partisi sembarang, sebagai berikut:
keanggotaan
Pt (c) = ∑∑ ( μ ik ) w y k − v f i
dan w adalah bobot pada nilai-nilai keanggotaan, μ k − v f i adalah bentuk normal
1
nilai
…
k =1 N
)w
…
vfi =
ik
…
dengan vf i adalah pusat vektor pada cluster N fuzzy ke-i, ik
) w uk
μ11[u1] μ21[u1] ... μc1[u1]
k =1 i =1
∑ (μ
∑ (μ
…
Pt ( c ) = ∑ ∑ ( μ ik ) w μ k − v f i
ik
Modifikasi tiap-tiap sebagai berikut: - jika yk ≠ vf i,
Fungsi obyektif iterasi ke-t P(c) pada matriks partisi adalah: N
k =1 N
1 ⎡ ⎛ 2 ⎞ ( w −1) ⎤ ⎥ ⎢ c ⎜ uk − v f i ⎟ ⎥ μik ( yk ) = ⎢∑ ⎜ 2 ⎟ ⎥ ⎢ g =1 ⎜ uk − vg i ⎟ ⎠ ⎥⎦ ⎢⎣ ⎝
μ12[u2] μ21[u2] ... μc1[u2]
c
∑ (μ k =1
6
μ11[u1] μ21[u1] ... μc1[u1]
μf(c) =
…
3
Tetapkan nilai w > 1 (misal w = 2), Eps sangat kecil (misal 10-5), MaxIter (misal 100). Jumlah cluster c > 1, dan t = 0; Tetapkan fungsi obyektif awal: Pt(c) secara acak; Naikkan nomor iterasi: t = t + 1; Hitung pusat vektor tiap-tiap cluster untuk matriks partisi tersebut sebagai berikut:
derajat keanggotaan suatu titik data ke-k di cluster-i adalah: Pada metode FCM, didefinisikan sebagai:
…
μ1N[uN] μ2N[un] ... μcN[uN] 2
U = (u1, u2, u3,..., uN)
μik (uk) ∈ [0,1] dengan (1 ≤ i ≤ c; 1 ≤ k ≤ N)
…
μf(c) =
μ12[u2] μ21[u2] ... μc1[u2]
…
data memiliki derajat keanggotaan untuk tiap cluster, dengan cara memperbaiki pusat cluster dan derajat keanggotaan tiap-tiap titik secara berulang, maka akan dapat dilihat bahwa pusat cluster akan bergerak menuju ke lokasi yang tepat. Perulangan ini didasarkan pada minimalisasi fungsi obyektif yang menggambarkan jarak dari titik data yang diberikan ke pusat cluster yang berbobot oleh derajat keanggotaan titik data tersebut. Keluaran dari FCM merupakan deretan pusat cluster dan beberapa derajat keanggotaan untuk tiap-tiap titik data. Apabila terdapat suatu himpunan data sebagai berikut:
μf(c) awal
Cek kondisi berhenti, yaitu: ( | Pt(c) – Pt-1(c) | < Eps) atau (t > MaxIter) Jika memenuhi langkah-9, maka berhenti. Jika tidak, ulangi lagi dari langkah-4.
Pendekatan Fuzzy dalam Data mining Misalkan diberikan suatu kumpulan record data D yang masing-masing berisi sekumpulan atribut I = {I1, I2, …, In} dimana Iv, v=1, …, n atribut dapat merupakan data kuantitatif atau data kategori. Daerah asal atribut Iv ( dom(Iv) )
4
merupakan himpunan bagian dari bilangan nyata, dom( Iv) ⊆ ℜ. Berdasarkan teori himpunan fuzzy, himpunan terminologi linguistik (Lvr, r = 1, …, sv, dengan sv: banyaknya variabel linguistik) didefinisikan sebagai daerah asal dari suatu atribut dan direpresentasikan dengan himpunan fuzzy Lvr . Fungsi keanggotaan ( μ Lvr ) dari sebuah himpunan fuzzy, Lvr , didefinisikan sebagai berikut (Au & Chan 2001): μ Lvr : dom( I v ) → [0, 1] dimana fungsi keanggotaan memetakan masingmasing atribut ke dalam suatu nilai keanggotaan antara 0 dan 1. Sedangkan untuk himpunan fuzzy Lvr didefinisikan sebagai berikut (Au & Chan, 2001): μ L (iv ) ⎧ ⎪⎪∑dom ( I vr ) iv Lvr = ⎨ μ Lvr (iv ) ⎪∫ ⎪⎩ dom ( I v ) iv
jika I v diskret
vr
v
daerah asal dari Iv dengan m kategori. Himpunan fuzzy untuk Atribut Iv didefinisikan sebagai berikut (Au & Chan, 2001):
1 ivr
dengan r = 1, ..., mv. Derajat keanggotaan dari suatu nilai di record d ∈ D pada atribut Iv dilambangkan dengan μ L (d [ I v ]). Jika μ L ( d [ I v ]) = 1, d vr vr secara lengkap dicirikan oleh terminologi Lvr. Jika μ Lvr (d [ I v ]) = 0, maka d tidak dicirikan oleh terminologi Lvr, sedangkan jika 0< μ L ( d [ I v ]) <1, maka d dicirikan sebagian vr
oleh terminologi Lvr. Pada kenyataannya d dapat juga dicirikan oleh lebih dari satu terminologi linguistik. Misalkan φ himpunan dari bilangan integer dengan φ = {v1, ..., vm} dimana v1, ..., vm ∈ { 1, ..., n}, v1 ≠ ... ≠ vm, dan |φ| = h ≥ 1, maka derajat, λLϕr (d ), dimana record d dicirikan dengan terminologi Lφr dan didefinisikan sebagai berikut (Au & Chan, 2001):
λ Lϕ (d ) = min( μ L ( d [ I v ]), ..., μ L r
Nilai
v1r1
λLϕ
Gambar 2.
r
dapat
1
ilustrasikan
v m rm
(d [ I vm ])
seperti
Suatu kumpulan record D dapat disajikan oleh himpunan data fuzzy, F, yang dicirikan oleh himpunan atribut linguistik, L = {L1 ,..., Ln }. Untuk sembarang atribut linguistik , Lv
jika I v kontinu
Jika atribut Iv ∈ I adalah variabel kategori maka dom( I v ) = {iv1 , ..., ivm } melambangkan
Lvr =
Gambar 2 Derajat record d dengan terminologi linguistik Lφr (Jang et al 1997).
pada
∈ L, nilai dari Lv dari sebuah
record t ∈ F adalah himpunan pasangan berurutan seperti berikut (Au & Chan, 2001):
t[Lv ] = {(Lv1 , μv1 ), ..., (Lvsv , μvsv )}
dengan Lvk dan μvk, sebuah terminologi keanggotaannya. Untuk sembarang dimana record L pq dan Lϕk , p ∉ ϕ ,
k ∈ {1, ..., sv } adalah linguistik dan derajat record t ∈ F, derajat t dicirikan oleh didefinisikan sebagai
berikut (Au & Chan, 2001):
oL pq Lϕk = min( μ L pq , μ Lϕk )
(1)
Sedangkan jumlah derajat dimana recordrecord di F dicirikan oleh L pq dan
Lϕk , diberikan sebagai berikut (Au & Chan, 2001):
deg L pqLϕk = ∑ oL pqLϕk
(2)
t∈F
Pencarian Aturan yang Menarik dalam Data fuzzy Sebuah aturan fuzzy dapat memiliki orde yang berbeda-beda. Aturan fuzzy orde kesatu (R1) merupakan aturan yang memiliki satu terminologi linguistik pada antecedent. Aturan fuzzy orde kedua (R2) merupakan aturan yang memiliki dua terminologi linguistik, dan seterusnya. Untuk mendapatkan aturan orde kesatu maka perlu membuat pengunaan ukuran kemenarikan sebuah objek. Supaya menentukan apakah hubungan antara terminologi linguistik L pq dengan Lϕk adalah menarik, maka akan ditentukan apakah
5
(3) Pr (L pq | Lϕk ) =
jumlah derajat dimana record dikarakteristikkan oleh Lϕk dan L pq jumlah derajat dimana record dikarakteristikkan oleh Lϕk
terminologi linguistik yang lain L pq , akan dibentuk aturan fuzzy sebagai berikut (Au & Chan 2001):
memiliki perbedaan yang signifikan dengan
Lϕk ⇒ L pq [ wL pq Lϕk ]
(4) Pr (L pq ) =
jumlah derajat dimana record dikarakteristikkan oleh L pq M
Dengan M =
sp
sϕ
∑∑ degL puLϕi
(5)
u =1 i =1
Perbedaan yang signifikan ( d L pq Lϕk ) secara
dimana wL L adalah ukuran weight of evidence pq ϕk dan dirumuskan sebagai berikut (Au & Chan 2001):
wL pqLϕk = I (L pq : Lϕk ) − I (U (L pq : Lϕk )) i≠q
objektif dapat dievaluasi berdasarkan sebuah adjusted residual yang didefinisikan sebagai berikut (Au & Chan 2001):
d L pq Lϕk =
zL pq Lϕk
γL
(6)
pq Lϕk
zL pq Lϕk adalah sebuah standardized
dengan
residual yang dirumuskan sebagai berikut (Au & Chan 2001):
zL pq Lϕk =
deg L pq Lϕk − eL pqLϕk
(7)
eL pqLϕk
dimana eL L adalah jumlah derajat suatu pq ϕk record diharapkan untuk terkarakterisasi oleh L pq dan Lϕk , dan dirumuskan sebagai berikut (Au & Chan 2001): sϕ
eL pqLϕk = dan
γL
pq Lϕk
∑ deg L pqLϕi
sp
∑ deg
L pu Lϕk
(10)
i≠q
dimana
I (L pq : Lϕk )
merupakan informasi
yang saling menguntungkan (mutual information) yang mengukur perubahan ketidakpastian dari presence L pq di dalam sebuah record yang diberikan, mengandung antecedent Lϕk . I (L pq : Lϕk ) didefinisikan sebagai berikut (Au & Chan 2001):
I (L pq : Lϕk ) = log
Pr (L pq | Lϕk ) Pr (L pq )
(11)
wL pq Lϕk dapat diinterpretasikan sebagai secara intuitif sebagai ukuran perbedaan di dalam perolehan informasi ketika sebuah record dengan Lϕk dicirikan oleh L pq dan dicirikan oleh L pi , i ≠ q. wL L dapat digunakan untuk pq ϕk
merupakan perkiraan maximum
mempertimbangkan pentingnya aturan fuzzy. Aturan fuzzy Lϕk ⇒ L pq [ wL pq Lϕk ] dapat
u =1
M
sebagai berikut (Au & Chan 2001): (9)
pqLϕk
Pr (Lϕk | U L pi )
(8)
i =1
likelihood dari varian zL pq Lϕk yang dirumuskan
γL
= log
Pr (Lϕk | L pq )
sϕ ⎛ ⎜ ∑ deg L L pq ϕi = ⎜⎜1 − i=1 M ⎜⎜ ⎝
sp ⎞⎛ ⎟⎜ ∑ deg L L pu ϕk ⎟⎜1 − u =1 ⎟⎜ M ⎟⎟⎜⎜ ⎠⎝
⎞ ⎟ ⎟ ⎟ ⎟⎟ ⎠
Representasi Ketidakpastian Misalkan diberikan sebuah terminologi linguistik Lϕk yang diasosiasikan dengan
pula dijabarkan sebagai berikut:
Lv1k1 ,..., Lv m k m ⇒ L pq [ wL pq Lϕk ] dimana v1 ,..., vm ∈ ϕ
yang mendeskripsikan
aturan fuzzy dengan orde yang lebih tinggi. Proses Defuzzifikasi Proses defuzzifikasi bertujuan untuk menentukan nilai yang belum diketahui menggunakan aturan fuzzy. Diberikan sebuah record, d ∈ dom( I1 ) x ... x dom ( I p ) x ... x dom ( I n ) , d dicirikan oleh n nilai atribut,
α 1 , ..., α p ,..., α n , dimana α p
adalah nilai yang akan diprediksi. Misalkan
6
merupakan terminologi L p , p = 1, ..., s p , linguistik yang berkorespondensi dengan atribut Ip, nilai α p diberikan dari nilai l p dengan Untuk
dom(l p ) = {L p1 , ..., L ps p }.
menentukan
nilai lp, maka dicari aturan fuzzy dengan L pq ∈ dom( I p ) sebagai consequent. Untuk setiap
kombinasi
nilai-nilai
atribut
( αϕ ,
p ∉ ϕ , ), nilai
αϕ dicirikan oleh terminologi
linguistik
Lϕk ,
dengan
λLϕ (d ),
kompatibilitasnya
derajat
untuk
k
setiap
k ∈ {1, ..., sϕ }. Misalkan diberikan aturan implikasi,
Lϕk ⇒ L pq [ wL pq Lϕk ] , maka nilai
Lϕk
evidence untuk
(14) sp
F −1 (U L pu ) = u =1
∫
dom ( i p )
∫
μ 'L
dom ( i p )
p 1 ∪...∪ L ps p
μ 'L
(i p ) . i p di p
p 1 ∪...∪ L ps p
(i p ) di p
(15) dimana μ 'L ∪...∪ L = max( μ 'L , ..., μ 'L ). p1 ps p1 ps p
p
Integrasi Numerik dengan Metode Trapesium Metode trapesium berdasarkan sebuah perkiraan dari daerah di bawah sebuah kurva mengunakan luas trapesium. Gambar 3 menjelaskan pendekatan integrasi numerik menggunakan metode trapesium.
dirumuskan sebagai
berikut (Au & Chan 2001):
wL pqα ϕ =
∑w
.λLϕk (d )
L pq Lϕk k ∈{1, ..., sϕ }
(12)
Weight of evidence untuk nilai lp diberikan sebagai berikut (Au & Chan 2001): β
wq = ∑ wL pqα [ j ]
(13)
j =1
dimana
α[ j ] = {α i | i ∈ {1, ..., n} − { p}} .
Sebagai hasilnya, nilai dari
α p , diberikan oleh
{(L p1 , w1 ), ..., (L pq , wq ), ..., (L ps p , ws p )}.
αp
Untuk mendapatkan nilai
secara tegas
dilakukan proses defuzzifikasi. Diberikan terminologi linguistik, L p1 , ..., L ps p dengan weight of evidence-nya, w1 , ..., ws p , misalkan
Gambar 3 Pendekatan trapesium untuk menghitung integral dari suatu fungsi f(x) (Cheney et al. 1994) Total dari luas daerah trapesium dirumuskan sebagai berikut (Cheney et al. 1994): (16)
T ( f ; P) =
1 n −1 ∑ ( xi +1 − xi )[ f ( xi ) + f ( x x +1 )] 2 i =0
μ 'L (i p ) merupakan weight of degree dari
dengan nilai x0 = a dan nilai xn = b.
keanggotaan i p ∈ dom(l p ) untuk himpunan fuzzy
Pengukuran Keakuratan Prediksi Pengukuran keakuratan merupakan suatu evaluasi performa dari suatu model klasifikasi yang berdasarkan penghitungan jumlah prediksi yang benar dan tidak benar dari model data uji yang ada. Performa akurasi dirumuskan sebagai berikut (Han & Kamber 2001):
pu
L pu , u ∈ {1, ..., s p }. μ 'L pu (i p )
diberikan
sebagai berikut (Au & Chan 2001):
μ 'L (i p ) = wu .μ L (i p ) pu
Nilai
defuzzifikasi,
pu
−1
sp
F (U L pu ), u =1
digunakan sebagai nilai untuk
yang
α p didefinisikan
sebagai berikut (Au & Chan, 2001):
(17) jumlah prediksi yang benar akurasi = Total dari jumlah prediksi
7
Root Mean Squared Error (RMSE) Root mean squared error digunakan untuk mungukur performa dari sebuah nilai perkiraan kuantitatif. Diberikan sebuah record yang akan diuji, r, misalkan n adalah jumlah record di D. untuk setiap record, r ∈ D, misalkan
[l , u ] ⊂ ℜ melambangkan daerah asal dari atribut kelas, tr sebagai nilai target dan or sebagai nilai perkiraan. Maka root mean squared error, rmse, didefinisikan sebagai berikut (Au & Chan, 2001): (18) rmse =
1 ⎛ tr − 1 or − 1 ⎞ − ⎟ ∑⎜ n r ∈D ⎝ u − l u − l ⎠
2
residual ( d L pq Lϕk ) . Jika nilai d L L >1.96 pq ϕk (95 persen dari distribusi normal), hubungan antara L pq dan Lϕk dikatakan menarik. -
Mendapatkan aturan fuzzy dengan orde yang lebih tinggi menggunakan algoritma fuzzy classification data mining sebagai berikut (Au & Chan 2001):(referensi???):
Formatted: Swedish (Sweden)
R1 = {aturan fuzzy orde kesatu}; for(m = 2; |Rm −1 | ≠ φ ; m + +) do begin C = {masing - masing kondisi di antecedent dari r | r ∈ Rm −1} forall ϕ yang tersusun dari m elemen di C do begin forall t ∈ F do forall ( L pq , μ pq ) ∈ t[L p ], ( Lϕk , μϕk ) ∈ t[Lϕ ], p ∉ ϕ do
METODE PENELITIAN A. Proses Dasar Sistem Proses dasar sistem yang digunakan mengacu pada proses KDD sebagai berikut: a.1 Pembersihan data Pada tahapan ini data yang tidak konsisten, data yang mengandung nilai null, dan data yang mengandung noise akan dihilangkan. Salah satu teknik yang dipakai adalah dengan menghapus record yang mengandung nilai null. 12 Pengintegrasian data Data-data yang terpisah akan digabungkan dalam tahap ini menjadi satu kesatuan. 23 Seleksi data Karena menggunakan metode fuzzy, pada tahapan ini akan mengambil dari basis data berupa data-data yang numerik. 34 Transformasi data Pada tahapan ini merubah format data yang sesuai dengan perangkat lunak yang digunakan. 45 Data mining Data mining merupakan proses inti untuk melakukan analisis. Metode yang digunakan adalah klasifikasi fuzzy, dengan algoritma fuzzy data mining. Algoritma ini didasarkan atas derajat keanggotaan dari himpunan fuzzy. Beberapa langkah yang dilakukan antara lain: - Membentuk himpunan fuzzy dengan nilai keanggotaanya menggunakan metode fuzzy c-means. - Mendapatkan aturan fuzzy orde kesatu dengan menggunakan interestingness measure berdasarkan adjusted
degL pq Lϕk + = min(μ pq , μϕk ); forall ( L pq , μ pq ) ∈ t[L p ], ( Lϕk , μϕk ) ∈ t[Lϕ ], p ∉ ϕ do if Menarik( L pq , Lϕk ) then Rm = Rm ∪ PembangkitAturan(L pq , Lϕk ); end end R = U Rm m
Penjelasan algoritma: a Aturan fuzzy orde ke satu (R1) digunakan untuk membangkitkan aturan orde kedua yang disimpan di R2. R2 digunakan untuk membangkitkan aturan orde ketiga yang disimpan di R3 dan seterusnya sampai orde yang lebih tinggi tidak ditemukan lagi. b Fungsi Menarik(Lpq, Lφk) menghitung ukuran secara objektif untuk menentukan apakah hubungan antara Lpq dan Lφk menarik. Jika benar maka menjalankan fungsi PembangkitAturan(Lpq, Lφk). c Fungsi PembangkitAturan(Lpq, Lφk) digunakan untuk membangkitkan aturan fuzzy. Untuk setiap aturan yang dibangkitkan, fungsi ini juga mengembalikan ukuran ketidakpastian yang diasosiasikan dengan aturan ( wL pq Lϕk ) . d Semua aturan fuzzy yang telah dibangkitkan akan disimpan di R. e Menentukan nilai yang belum diketahui berdasarkan aturan yang telah dibangkitkan dengan proses defuzzifikasi dan menentukan kelas pada atribut yang akan diprediksi kelasnya.
56 Evaluasi pola Pada tahapan ini akan dilakukan pengukuran performa terhadap hasil penelitian proses data
Formatted: Indent: Left: 0", Hanging: 0.2", Space Before: 6 pt, Numbered + Level: 2 + Numbering Style: 1, 2, 3, … + Start at: 1 + Alignment: Left + Aligned at: 0" + Tab after: 0.2" + Indent at: 0.2"
8
mining yang didapat. Adapun yang dievaluasi meliputi: a Waktu eksekusi untuk pembangkitan aturan dengan jumlah data training yang berbedabeda yaitu 500, 1000, 1500, 2000, dan 2500 data. b Akurasi hasil penentuan kelas dengan kelas sebenarnya pada setiap data yang telah ditentukan. c Nilai root mean squared error (rmse) untuk setiap masing-masing nilai data yang telah ditentukan.
67 Penyajian Pengetahuan Pada tahap ini hasil penelitian dalam proses KDD akan disajikan dalam bentuk tabel dan grafik. B. Lingkungan Pengembangan Sistem Sistem dikembangkan menggunakan: Perangkat lunak: - Microsoft Windows XP Home Edition - Microsoft® Visual Basic 6.0 sebagai bahasa pemrograman - DBMS: Microsoft® Access Perangkat keras: - PC dengan prosesor AMD Sempron 2500+ (1.40 GHz) - RAM DDR 512 MB - Harddisk 40 GB (7200 rpm) - Mouse dan keyboard - Monitor
HASIL DAN PEMBAHASAN Transformasi Data Data PODES 2003 memiliki format data .sd2 sehingga harus dikonversi sesuai dengan format jenis DBMS yang digunakan yaitu .mdb, berhubung proses transformasi data telah dilakukan pada penelitian sebelumnya (Mustika 2006) data PODES 2003 sudah diolah, sehingga pada penelitian ini tinggal menggunakan data yang sudah diolah tersebut. Pembersihan Data Tahap pembersihan data tidak dilakukan juga karena tahap pembersihan sudah dilakukan pada penelitian sebelumya (Mustika 2006). Seleksi Data Data PODES 2003 memiliki 750 atribut dan baik berupa atribut numerik maupun yang bukan numerik dan memiliki 65536 record yang berasal dari seluruh Indonesia. Pada penelitian sebelumnya (Mustika 2006) diambil
5 atribut yang berupa data numerik dan dipilih 24962 record yang berasal dari desa yang ada di pulau Jawa. Adapun 5 atribut tersebut yaitu : a Jumlah keluarga prasejahtera sejahtera 1 b Jumlah pengangguran c Jumlah keluarga pengguna listrik PLN d Jumlah bangunan permanen e jumlah murid SD yang drop-out Dari hasil seleksi data tersebut diambil sebanyak 10500 record dengan 7500 record untuk data training dan 3000 data untuk data tes. Untuk tujuan penelitian, data training dibagi menjadi 5 bagian yaitu 500, 1000, 1500, 2000, dan 2500 record data training, sedangkan untuk data tes dibagi menjadi 5 bagian yaitu 200, 400, 600, 800, dan 1000 record data tes.
Data mining Proses data mining menggunakan algoritma yang diajukan oleh Wai-Hou Au dan Keith C.C. Chan pada tahun 2001. Secara garis besar ada tiga tahap yang dilakukan yaitu membentuk himpunan fuzzy, membangkitkan aturan yang menarik, dan menentukan nilai dan kelas suatu data yang belum diketahui. Pembentukkan Himpunan Fuzzy Tahap pembentukkan himpunan fuzzy ini melakukan transformasi data ke dalam himpunan fuzzy. Untuk penelitian ini digunakan 10500 record data dari hasil transformasi yang dilakukan oleh Arsha Mustika pada hasil penelitiannya tahun 2006. Berdasarkan penelitiannya, masing-masing atribut terbagi menjadi 2 kelas sehingga jumlah atribut menjadi 10 buah. Penjelasan mengenai atribut tersebut dapat dilihat pada Tabel 1 dan Tabel 2. Tabel 1 Atribut PODES 2003 yang telah ditransformasi ke himpunan fuzzy Atribut Keterangan Kelas C11 Jumlah keluarga Banyak prasejahtera sejahtera I C12 Jumlah keluarga Sedikit prasejahtera sejahtera I C21 Jumlah pengangguran Banyak C22 Jumlah pengangguran Sedikit C31 Jumlah keluarga Banyak pengguna listrik PLN C32 Jumlah keluarga Sedikit pengguna listrik PLN C41 Jumlah bangunan Sedikit permanen C42 Jumlah bangunan Banyak permanen
9
Keterangan
Kelas
C51
Jumlah murid SD yang DO Jumlah murid SD yang DO
Banyak
C52
Sedikit
Tabel 2 Nilai minimum dan maksimum untuk masing-masing atribut Atribut Nilai Nilai Minimum Maksimum C11 466 998 C12 2 465 C21 245 812 C22 1 244 C31 630 1515 C32 1 62 C41 1 539 C42 540 1470 C51 52 197 C52 1 51
Pembentukan Basis Data Proses pembentukan basis data diperlukan untuk membantu penghitungan dan penyimpanan data pada proses data mining. Basis data yang dibuat bernama data.mdb dan berisi 27 tabel. Perincian menggenai tabel yang ada di dalam basis data dapat dilihat pada Lampiran 1. Pembentukan Aturan Pembentukan aturan dimulai terlebih dahulu dengan membentuk aturan orde ke satu (R1). Dari hasil percobaan didapat jumlah aturan orde ke satu yang terbentuk dari beberapa data tes yang ada sebagai berikut ( Tabel 3) : Tabel 3 Banyaknya aturan orde ke satu (R1) untuk masing-masing data training Jumlah data training Banyaknya R1 500 20 1000 24 1500 40 2000 36 2500 32
tinggi (antecedent makin banyak) maka jumlah aturan yang terbentuk semakin sedikit. Tabel 4 Banyaknya aturan orde ke dua, tiga, dan empat untuk masing-masing data training Jumlah Banyak aturan yang terbentuk data R2 R3 R4 training 500 50 41 9 1000 52 48 15 1500 90 89 25 2000 94 98 32 2500 98 102 39 Secara keseluruhan hubungan antara jumlah data training yang ada dengan jumlah aturan yang tebentuk dapat dilihat pada Tabel 5. Tabel 5 Jumlah aturan yang terbentuk untuk masing-masing data training Jumlah data training Jumlah aturan 500 120 1000 139 1500 244 2000 260 2500 271 Secara umum dari seluruh percobaan yang dibuat jika jumlah data trainingnya semakin banyak maka jumlah aturannya juga semakin banyak dengan kenaikan terbesar terjadi pada selang 1000 sampai 1500 data training. Jumlah aturan terbesar yang dapat dibangkitkan sebanyak 271 aturan dengan jumlah data training 2500 data. Hal ini dapat dilihat pada Gambar 4. 300
jmlah aturan terbentuk
Atribut
250
244
260
271
200 150
139 120
100 50 0 500
1000
1500
2000
2500
jumlah data training
Setelah aturan orde ke satu didapat, kemudian dibentuk aturan untuk orde yang lebih tinggi. Karena data awalnya yang diambil sebanyak 5 atribut maka maksimum aturanaturan yang dapat dibentuk sampai orde ke empat. Banyaknya aturan yang didapat untuk masing-masing orde dapat dilihat pada Tabel 4. Dari Tabel 4 dapat dilihat bahwa secara umum dengan pembangkitan aturan yang lebih
Gambar 4 Jumlah aturan yang terbentuk pada jumlah data training yang ada Beberapa contoh aturan yang terbentuk dari 500 data training dapat dilihat pada Tabel 6.
10
Sedangkan sebagian contoh lainnya dapat dilihat pada Lampiran 2.
Prediksi Nilai Nilai yang akan ditentukan diambil dari data tes yang terdapat pada basis data yaitu data tes yang masing-masing berjumlah 200, 400, 600, 800, dan 1000 data. Tabel 7 merupakan contoh hasil prediksi nilai dan kelas data dari suatu atribut serta membandingkannya dengan data sebenarnya untuk 500 data training dan 200 data uji dengan kelas target dari atribut “ Jumlah pengguna listrik “.
Evaluasi Pola a Waktu eksekusi Gambar 5 menjelaskan hubungan antara waktu yang dibutuhkan untuk membangkitkan aturan dengan jumlah data training yang ada. Dari Gambar 5 dapat disimpulkan bahwa semakin banyak jumlah data training maka waktu untuk membangkitkan aturan juga semakin besar dengan kenaikannya secara linier. 35 30.75
30 Waktu (detik)
Tabel 6 Contoh aturan yang terbentuk dari 500 data training No Orde Aturan 1 R1 Jika jumlah keluarga prasejahtera sejahtera I banyak maka jumlah pengangguran banyak. 2 R1 jika jumlah keluarga prasejahtera sejahtera I sedikit maka jumlah pengangguran sedikit. 3 R2 Jika jumlah keluarga prasejahtera sejahtera I banyak dan jumlah bangunan permanen banyak maka jumlah keluarga pengguna listrik PLN banyak 4 R3 Jika jumlah keluarga prasejahtera sejahtera I banyak, jumlah pengangguran banyak, dan jumlah bangunan permanen banyak maka jumlah keluarga pengguna listrik PLN banyak 5 R4 Jika jumlah keluarga prasejahtera sejahtera I banyak, jumlah pengangguran banyak, jumlah bangunan permanen banyak, dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN banyak
25.891
25 21.917
20 16.5
15 11.859
10 5 0 0
500
1000
1500
2000
2500
3000
Jumlah data training
Gambar 5 Grafik hubungan jumlah data training dengan waktu pembangkitan b
Performa akurasi Performa akurasi diukur per atribut yang menjadi data prediksi untuk setiap jumlah data training dan data tes yang ada. Untuk hasil pengukuran performa akurasi secara keseluruhan dapat dilihat pada Lampiran 3. Sa. Untuk hasil pengukuran performa akurasi secara keseluruhan dapat dilihat pada Lampiran 3. Secara umum dapat disimpulkan bahwa semakin banyak data training yang digunakan tidak mempengaruhi nilai akurasinya (Gambar 6), sedangkan yang mempengaruhi nilai akurasi adalah nilai bobot dari masing-masing aturan yang terbentuk. 100%
Tabel 7 Contoh perbandingan data prediksi dengan data sebenarnya Data Prediksi Data Sebenarnya Nilai Kelas Nilai Kelas 435 Sedikit 437 Sedikit 931 Banyak 840 Banyak 430 Sedikit 347 Sedikit 596 Sedikit 920 Banyak 435 Sedikit 432 sedikit
80%
500 1000
60%
1500 40%
2000 2500
20% 0%
c1
c2
c3
c4
c5
500
64%
50%
80%
76%
13%
1000
59%
40%
80%
79%
13%
1500
58%
33%
69%
65%
13%
2000
56%
14%
62%
64%
13%
2500
58%
30%
75%
71%
13%
11
Gambar 6 Grafik hubungan jumlah data training dengan akurasi rata-rata tiap atribut target Pada Gambar 6 juga terlihat bahwa nilai akurasi yang tinggi jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) atau C4 (jumlah bangunan permanen) dan akurasi terendah jika atributnya C5 (Jumlah murid SD yang DO). Untuk nilai akurasi tertinggi (80%) didapatkan jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 1000 data. Nilai akurasi terendah (13%) didapatkan jika atribut targetnya C5 (Jumlah murid SD yang DO) untuk setiap jumlah data training yang ada. c Nilai root mean squared error (rmse) Nilai rmse diukur per atribut yang menjadi data prediksi untuk setiap jumlah data training dan data tes yang ada. Untuk hasil pengukuran nilai rmse secara keseluruhan dapat dilihat pada Lampiran 4. 0.6 0.5
500
0.4
1000
0.3
1500
0.2
2000 2500
0.1 0
c1
c2
c3
c4
c5
500
0.24778
0.28696
0.17862
0.20114
0.29306
1000
0.2542
0.3379
0.17904
0.19498
0.39054
1500
0.2578
0.3528
0.2086
0.23254
0.39754
2000
0.26846
0.43432
0.2271
0.24128
0.4657
2500
0.25952
0.36704
0.19358
0.22154
0.50804
Gambar 7
Grafik hubungan jumlah data training dengan nilai rmse tiap atribut target Pada Gambar 7 juga terlihat nilai rmse yang terkecil (0.17862) didapat jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 500 data. Nilai rmse yang terbesar (0.50804) didapat jika atribut targetnya C5 (Jumlah murid SD yang DO) dengan jumlah data training sebanyak 2500 data. Dari percobaan penghitungan nilai akurasi didapatkan model yang terbaik untuk memprediksi nilai dan kelas suatu data adalah jika data training yang digunakan sebanyak 1000 data dengan kelas targetnya dari atribut C3 (jumlah keluarga pengguna listrik PLN) atau C4 (jumlah bangunan permanen) dengan nilai akurasi masing-masing atribut tersebut sebesar 80% dan 79%.
KESIMPULAN DAN SARAN Kesimpulan Dari berbagai percobaan yang dilakukan terhadap data PODES 2003 didapat kesimpulan sebagai berikut: 1 Semakin banyak data training yang digunakan, maka jumlah aturan yang terbentuk semakin besar dengan kenaikan terbesar terjadi pada selang 1000 sampai 1500 data training. Jumlah aturan terbesar yang dapat dibangkitkan sebanyak 271 aturan dengan jumlah data training 2500 data. 2 Semakin banyak antecedent yang ingin dibuat maka jumlah aturan yang terbentuk semakin sedikit. 23 Semakin banyak data training yang digunakan, maka waktu untuk membangkitkan aturan juga semakin besar dengan kenaikannya secara linier. 34 Banyaknya data training yang ada tidak berpengaruh signifikan dengan nilai akurasi dan rmse, yang mempengaruhi adalah nilai bobot dari masing-masing aturan. 45 Evaluasi akurasi semakin baik jika nilai persentasenya semakin besar. Persentase terbesar (80%) didapatkan jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 1000 data. Persentase terkecil (13%) didapatkan jika atribut targetnya C5 (Jumlah murid SD yang DO) untuk setiap jumlah data training yang ada. 56 Evaluasi rmse semakin baik jika nilainya semakin mendekati nol. Nilai rmse yang terkecil (0.17862) didapat jika atribut targetnya C3 (jumlah keluarga pengguna listrik PLN) dengan jumlah data training sebanyak 500 data. Nilai rmse yang terbesar (0.50804) didapat jika atribut targetnya C5 (Jumlah murid SD yang DO) dengan jumlah data training sebanyak 2500 data. 67 Evaluasi akurasi dan rmse akan mendapatkan hasil yang baik jika atribut yang dijadikan kelas target berasal dari atribut C3 (jumlah keluarga pengguna listrik PLN) atau C4 (jumlah bangunan permanen) dan digunakan sebagai model yang terbaik untuk memprediksi nilai dan kelas suatu data. Saran
Formatted: Bullets and Numbering
12
1
2
Pada tahap penyeleksian data hanya mempertimbangkan atribut yang numerik saja, pada penelitian selanjutnya dapat dipakai teknik data mining yang khusus untuk menyeleksi atribut yang relevan untuk dilakukan proses data mining. Aturan yang terbentuk sebenarnya bisa diringkas lagi sehingga didapatkan aturan yang lebih sedikit, diharapkan proses meringkas aturan dapat diakukan pada penelitian selanjutnya.
DAFTAR PUSTAKA Au, W. H., Chan, K. C. C. 2001. Classification with Degree of Membership: A Fuzzy Approach. Hasil ICDM’01. Cheney W, Kincaid D. 1994. Numerical Mathematics and Computing. Brooks/Cole Publishing Company, California. Fayyad, U. M., G. P. Shapiro, P. Smyth dan R Uthurusamy. 1996. Advances Knowledge Discovery and Data mining. American Association for Artificial Intelligence, California. Han, J. M. Kamber. 2001. Data mining Concepts and mining. Morgan Kaufmann Publiser, USA. Hoffer, J. A., M. B. Prescott dan F. R. McFadden. 2002. Modern Database Management Sixth Edition. Pearson Education, New Jersey. Jang, J. S. R., C. T. Sun, E. Mizutani. 1997. Neuro-Fuzzy and Soft Computing. Prentice-Hall Inc., USA. Kusumadewi, S. 2002. Analisis dan Desain Sistem Fuzzy Menggunakan Tool Box Matlab. Graha Ilmu, Yogyakarta. Mustika, A. 2006. Pengembangan Aplikasi Data mining Menggunakan Fuzzy Association Rules [skripsi] Shapiro, G. P. 2006. Machine Learning, Data mining, and Knowledge Discovery. http://www.kdnuggets.com/dmcourse/data_ mining_course [5 Januari 2006]
13
LAMPIRAN
14
Lampiran 1 Tabel-tabel yang ada di data.mdb Tabel DataUji1000 DataUji200 DataUji400 DataUji600 DataUji800 Deg1 Deg2 Deg3 Deg4 Domain Linguistik MF MFTes1000 MFTes200 MFTes400 MFTes600 MFTes800 MFTrain1000 MFTrain200 MFTrain400 MFTrain600 MFTrain800 Rule1 Rule2 Rule3 Rule4
Keterangan Seribu data yang akan dites Dua ratus data yang akan dites Empat ratus data yang akan dites Enam ratus data yang akan dites Delapan ratus data yang akan dites Sum of degree dari aturan orde ke satu Sum of degree dari aturan orde ke dua Sum of degree dari aturan orde ke tiga Sum of degree dari aturan orde ke empat Daerah asal untuk masing-masing atribut Keterangan untuk kode kelas Nilai dari fungsi keanggotaan setiap kelas Fungsi Keanggotaan untuk 1000 data tes Fungsi keanggotaan untuk 200 data tes Fungsi keanggotaan untuk 400 data tes Fungsi keanggotaan untuk 600 data tes Fungsi keanggotaan untuk 800 data tes Fungsi keanggotaan untuk 1000 data training Fungsi keanggotaan untuk 200 data training Fungsi keanggotaan untuk 400 data training Fungsi keanggotaan untuk 600 data training Fungsi keanggotaan untuk 800 data training Aturan orde ke satu Aturan orde ke dua Aturan orde ke tiga Aturan orde ke empat
Lampiran 2 120 Aturan yang terbentuk dari 500 data training no 1 2 3 4 5 6 7 8 9 10 11 12 13
Aturan Jika jumlah keluarga prasejahtera sejahtera I banyak maka jumlah pengangguran banyak Jika jumlah keluarga prasejahtera sejahtera I banyak maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah keluarga prasejahtera sejahtera I sedikit maka jumlah pengangguran sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit maka jumlah keluarga pengguna listrik PLN sedikit Jika jumlah pengangguran banyak maka jumlah keluarga prasejahtera sejahtera I banyak Jika jumlah pengangguran banyak maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah pengangguran sedikit maka jumlah keluarga prasejahtera sejahtera I sedikit Jika jumlah pengangguran sedikit maka jumlah keluarga pengguna listrik PLN sedikit Jika jumlah keluarga pengguna listrik PLN banyak maka jumlah keluarga prasejahtera sejahtera I banyak Jika jumlah keluarga pengguna listrik PLN banyak maka jumlah pengangguran banyak Jika jumlah keluarga pengguna listrik PLN banyak maka jumlah bangunan permanen banyak Jika jumlah keluarga pengguna listrik PLN sedikit maka jumlah keluarga prasejahtera sejahtera I sedikit Jika jumlah keluarga pengguna listrik PLN sedikit maka jumlah pengangguran sedikit
15
Lampiran 2 Lanjutan
No 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
Aturan Jika jumlah keluarga pengguna listrik PLN sedikit maka jumlah bangunan permanen sedikit Jika jumlah bangunan permanen sedikit maka jumlah keluarga pengguna listrik PLN sedikit Jika jumlah bangunan permanen sedikit maka jumlah murid SD yang DO sedikit Jika jumlah bangunan permanen banyak maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah bangunan permanen banyak maka jumlah murid SD yang DO banyak Jika jumlah murid SD yang DO banyak maka jumlah bangunan permanen banyak Jika jumlah murid SD yang DO sedikit maka jumlah bangunan permanen sedikit Jika jumlah keluarga prasejahtera sejahtera I banyak dan jumlah pengangguran banyak maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah keluarga prasejahtera sejahtera I banyak dan jumlah keluarga pengguna listrik PLN banyak maka jumlah pengangguran banyak Jika jumlah keluarga prasejahtera sejahtera I banyak dan jumlah keluarga pengguna listrik PLN banyak maka jumlah bangunan permanen banyak Jika jumlah keluarga prasejahtera sejahtera I banyak dan jumlah keluarga pengguna listrik PLN sedikit maka jumlah bangunan permanen sedikit Jika jumlah keluarga prasejahtera sejahtera I banyak dan jumlah bangunan permanen banyak maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah keluarga prasejahtera sejahtera I banyak dan jumlah murid SD yang DO sedikit maka jumlah pengangguran banyak Jika jumlah keluarga prasejahtera sejahtera I banyak dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah keluarga prasejahtera sejahtera I sedikit dan jumlah pengangguran sedikit maka jumlah keluarga pengguna listrik PLN sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit dan jumlah pengangguran sedikit maka jumlah murid SD yang DO sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit dan jumlah keluarga pengguna listrik PLN banyak maka jumlah bangunan permanen banyak Jika jumlah keluarga prasejahtera sejahtera I sedikit dan jumlah keluarga pengguna listrik PLN sedikit maka jumlah pengangguran sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit dan jumlah keluarga pengguna listrik PLN sedikit maka jumlah bangunan permanen sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit dan jumlah keluarga pengguna listrik PLN sedikit maka jumlah murid SD yang DO sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit dan jumlah bangunan permanen sedikit maka jumlah keluarga pengguna listrik PLN sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit dan jumlah bangunan permanen sedikit maka jumlah murid SD yang DO sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit dan jumlah bangunan permanen banyak maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah keluarga prasejahtera sejahtera I sedikit dan jumlah murid SD yang DO sedikit maka jumlah pengangguran sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit dan jumlah murid SD yang DO sedikit maka jumlah bangunan permanen sedikit Jika jumlah pengangguran banyak dan jumlah keluarga pengguna listrik PLN banyak maka jumlah keluarga prasejahtera sejahtera I banyak Jika jumlah pengangguran banyak dan jumlah keluarga pengguna listrik PLN banyak maka jumlah bangunan permanen banyak Jika jumlah pengangguran banyak dan jumlah keluarga pengguna listrik PLN sedikit maka jumlah bangunan permanen sedikit
16
Lampiran 2 Lanjutan
No 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69
Aturan Jika jumlah pengangguran banyak dan jumlah bangunan permanen banyak maka jumlah keluarga prasejahtera sejahtera I banyak Jika jumlah pengangguran banyak dan jumlah bangunan permanen banyak maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah pengangguran banyak dan jumlah murid SD yang DO sedikit maka jumlah keluarga prasejahtera sejahtera I banyak Jika jumlah pengangguran banyak dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah pengangguran sedikit dan jumlah keluarga pengguna listrik PLN banyak maka jumlah bangunan permanen banyak Jika jumlah pengangguran sedikit dan jumlah keluarga pengguna listrik PLN sedikit maka jumlah keluarga prasejahtera sejahtera I sedikit Jika jumlah pengangguran sedikit dan jumlah keluarga pengguna listrik PLN sedikit maka jumlah bangunan permanen sedikit Jika jumlah pengangguran sedikit dan jumlah keluarga pengguna listrik PLN sedikit maka jumlah murid SD yang DO sedikit Jika jumlah pengangguran sedikit dan jumlah bangunan permanen sedikit maka jumlah keluarga prasejahtera sejahtera I sedikit Jika jumlah pengangguran sedikit dan jumlah bangunan permanen sedikit maka jumlah keluarga pengguna listrik PLN sedikit Jika jumlah pengangguran sedikit dan jumlah bangunan permanen sedikit maka jumlah murid SD yang DO sedikit Jika jumlah pengangguran sedikit dan jumlah bangunan permanen banyak maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah pengangguran sedikit dan jumlah murid SD yang DO banyak maka jumlah bangunan permanen banyak Jika jumlah pengangguran sedikit dan jumlah murid SD yang DO sedikit maka jumlah keluarga prasejahtera sejahtera I sedikit Jika jumlah pengangguran sedikit dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN sedikit Jika jumlah keluarga pengguna listrik PLN banyak dan jumlah bangunan permanen sedikit maka jumlah pengangguran banyak Jika jumlah keluarga pengguna listrik PLN banyak dan jumlah murid SD yang DO banyak maka jumlah bangunan permanen banyak Jika jumlah keluarga pengguna listrik PLN banyak dan jumlah murid SD yang DO sedikit maka jumlah pengangguran banyak Jika jumlah keluarga pengguna listrik PLN banyak dan jumlah murid SD yang DO sedikit maka jumlah bangunan permanen banyak Jika jumlah keluarga pengguna listrik PLN sedikit dan jumlah bangunan permanen sedikit maka jumlah keluarga prasejahtera sejahtera I sedikit Jika jumlah keluarga pengguna listrik PLN sedikit dan jumlah bangunan permanen sedikit maka jumlah pengangguran sedikit Jika jumlah keluarga pengguna listrik PLN sedikit dan jumlah murid SD yang DO sedikit maka jumlah keluarga prasejahtera sejahtera I sedikit Jika jumlah keluarga pengguna listrik PLN sedikit dan jumlah murid SD yang DO sedikit maka jumlah pengangguran sedikit Jika jumlah keluarga pengguna listrik PLN sedikit dan jumlah murid SD yang DO sedikit maka jumlah bangunan permanen sedikit Jika jumlah bangunan permanen sedikit dan jumlah murid SD yang DO sedikit maka jumlah keluarga prasejahtera sejahtera I sedikit Jika jumlah bangunan permanen sedikit dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN sedikit Jika jumlah bangunan permanen banyak dan jumlah murid SD yang DO banyak maka jumlah keluarga pengguna listrik PLN banyak
17
Lampiran 2 Lanjutan
No 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94
Aturan Jika jumlah bangunan permanen banyak dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah keluarga prasejahtera sejahtera I banyak , jumlah pengangguran banyak ,dan jumlah bangunan permanen banyak maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah keluarga prasejahtera sejahtera I banyak , jumlah pengangguran banyak ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah keluarga prasejahtera sejahtera I banyak , jumlah pengangguran sedikit ,dan jumlah keluarga pengguna listrik PLN banyak maka jumlah bangunan permanen banyak Jika jumlah keluarga prasejahtera sejahtera I banyak , jumlah pengangguran sedikit ,dan jumlah bangunan permanen banyak maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah keluarga prasejahtera sejahtera I banyak , jumlah keluarga pengguna listrik PLN banyak ,dan jumlah bangunan permanen sedikit maka jumlah pengangguran banyak Jika jumlah keluarga prasejahtera sejahtera I banyak , jumlah keluarga pengguna listrik PLN banyak ,dan jumlah murid SD yang DO banyak maka jumlah bangunan permanen banyak Jika jumlah keluarga prasejahtera sejahtera I banyak , jumlah keluarga pengguna listrik PLN banyak ,dan jumlah murid SD yang DO sedikit maka jumlah pengangguran banyak Jika jumlah keluarga prasejahtera sejahtera I banyak , jumlah keluarga pengguna listrik PLN banyak ,dan jumlah murid SD yang DO sedikit maka jumlah bangunan permanen banyak Jika jumlah keluarga prasejahtera sejahtera I banyak , jumlah keluarga pengguna listrik PLN sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah bangunan permanen sedikit Jika jumlah keluarga prasejahtera sejahtera I banyak , jumlah bangunan permanen banyak ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah pengangguran sedikit ,dan jumlah keluarga pengguna listrik PLN banyak maka jumlah bangunan permanen banyak Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah pengangguran sedikit ,dan jumlah keluarga pengguna listrik PLN sedikit maka jumlah bangunan permanen sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah pengangguran sedikit ,dan jumlah keluarga pengguna listrik PLN sedikit maka jumlah murid SD yang DO sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah pengangguran sedikit ,dan jumlah bangunan permanen sedikit maka jumlah keluarga pengguna listrik PLN sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah pengangguran sedikit ,dan jumlah bangunan permanen sedikit maka jumlah murid SD yang DO sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah pengangguran sedikit ,dan jumlah bangunan permanen banyak maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah pengangguran sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah keluarga pengguna listrik PLN sedikit ,dan jumlah bangunan permanen sedikit maka jumlah pengangguran sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah keluarga pengguna listrik PLN sedikit ,dan jumlah bangunan permanen sedikit maka jumlah murid SD yang DO sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah keluarga pengguna listrik PLN sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah pengangguran sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah keluarga pengguna listrik PLN sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah bangunan permanen sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah bangunan permanen sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah pengangguran sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah bangunan permanen sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah bangunan permanen banyak ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN banyak
18
Lampiran 2 Lanjutan
No 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117
Aturan Jika jumlah pengangguran banyak , jumlah keluarga pengguna listrik PLN banyak ,dan jumlah bangunan permanen banyak maka jumlah keluarga prasejahtera sejahtera I banyak Jika jumlah pengangguran banyak , jumlah keluarga pengguna listrik PLN banyak ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga prasejahtera sejahtera I banyak Jika jumlah pengangguran banyak , jumlah keluarga pengguna listrik PLN sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah bangunan permanen sedikit Jika jumlah pengangguran banyak , jumlah bangunan permanen banyak ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga prasejahtera sejahtera I banyak Jika jumlah pengangguran banyak , jumlah bangunan permanen banyak ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah pengangguran sedikit , jumlah keluarga pengguna listrik PLN banyak ,dan jumlah murid SD yang DO banyak maka jumlah bangunan permanen banyak Jika jumlah pengangguran sedikit , jumlah keluarga pengguna listrik PLN banyak ,dan jumlah murid SD yang DO sedikit maka jumlah bangunan permanen banyak Jika jumlah pengangguran sedikit , jumlah keluarga pengguna listrik PLN sedikit ,dan jumlah bangunan permanen sedikit maka jumlah keluarga prasejahtera sejahtera I sedikit Jika jumlah pengangguran sedikit , jumlah keluarga pengguna listrik PLN sedikit ,dan jumlah bangunan permanen sedikit maka jumlah murid SD yang DO sedikit Jika jumlah pengangguran sedikit , jumlah keluarga pengguna listrik PLN sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga prasejahtera sejahtera I sedikit Jika jumlah pengangguran sedikit , jumlah keluarga pengguna listrik PLN sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah bangunan permanen sedikit Jika jumlah pengangguran sedikit , jumlah bangunan permanen sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga prasejahtera sejahtera I sedikit Jika jumlah pengangguran sedikit , jumlah bangunan permanen sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN sedikit Jika jumlah pengangguran sedikit , jumlah bangunan permanen banyak ,dan jumlah murid SD yang DO banyak maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah pengangguran sedikit , jumlah bangunan permanen banyak ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah keluarga pengguna listrik PLN sedikit , jumlah bangunan permanen sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga prasejahtera sejahtera I sedikit Jika jumlah keluarga pengguna listrik PLN sedikit , jumlah bangunan permanen sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah pengangguran sedikit Jika jumlah keluarga prasejahtera sejahtera I banyak , jumlah pengangguran banyak , jumlah bangunan permanen banyak ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN banyak Jika jumlah keluarga prasejahtera sejahtera I banyak , jumlah pengangguran sedikit , jumlah keluarga pengguna listrik PLN banyak ,dan jumlah murid SD yang DO banyak maka jumlah bangunan permanen banyak Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah pengangguran banyak , jumlah keluarga pengguna listrik PLN sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah bangunan permanen sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah pengangguran sedikit , jumlah keluarga pengguna listrik PLN sedikit ,dan jumlah bangunan permanen sedikit maka jumlah murid SD yang DO sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah pengangguran sedikit , jumlah keluarga pengguna listrik PLN sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah bangunan permanen sedikit Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah pengangguran sedikit , jumlah bangunan permanen sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga pengguna listrik PLN sedikit
19
Lampiran 2 Lanjutan
No 118 119 120
Aturan Jika jumlah keluarga prasejahtera sejahtera I sedikit , jumlah keluarga pengguna listrik PLN sedikit , jumlah bangunan permanen sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah pengangguran sedikit Jika jumlah pengangguran banyak , jumlah keluarga pengguna listrik PLN banyak , jumlah bangunan permanen banyak ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga prasejahtera sejahtera I banyak Jika jumlah pengangguran sedikit , jumlah keluarga pengguna listrik PLN sedikit , jumlah bangunan permanen sedikit ,dan jumlah murid SD yang DO sedikit maka jumlah keluarga prasejahtera sejahtera I sedikit
Lampiran 3 Performa akurasi untuk masing-masing data training dan data tes yang ada Performa akurasi 500 data training
Jumlah data tes 200 400 600 800 1000 Rata-rata
c1 46% 72% 70% 63% 68% 64%
Atribut yang diprediksi c2 c3 c4 C5 38% 77% 72% 18% 48% 84% 82% 13% 47% 79% 78% 5% 53% 80% 72% 9% 62% 78% 75% 20% 50% 80% 76% 13%
Performa akurasi 1000 data training Atribut yang diprediksi Jumlah data tes c1 c2 c3 c4 200 50% 26% 76% 78% 400 62% 38% 82% 84% 600 58% 44% 79% 79% 800 61% 45% 82% 73% 1000 66% 49% 83% 82% Rata-rata 59% 40% 80% 79%
c5 18% 13% 5% 9% 20% 13%
Performa akurasi 1500 data training Atribut yang diprediksi Jumlah data tes c1 c2 c3 c4 200 53% 23% 63% 54% 400 56% 32% 76% 73% 600 54% 31% 74% 76% 800 63% 39% 71% 57% 1000 65% 42% 63% 63% Rata-rata 58% 33% 69% 65%
c5 18% 13% 5% 9% 20% 13%
20
Lampiran 3 lanjutan Performa akurasi 2000 data training Atribut yang diprediksi Jumlah data tes c1 c2 c3 c4 200 55% 9% 52% 58% 400 52% 13% 66% 72% 600 51% 17% 71% 76% 800 63% 9% 64% 55% 1000 60% 22% 56% 58% Rata-rata 56% 14% 62% 64% Performa akurasi 2500 data training Atribut yang diprediksi Jumlah data tes c1 c2 c3 c4 200 54% 22% 72% 69% 400 57% 30% 80% 79% 600 53% 28% 75% 77% 800 62% 35% 78% 63% 1000 65% 37% 72% 66% Rata-rata 58% 30% 75% 71%
c5 18% 13% 5% 9% 20% 13%
c5 18% 13% 5% 9% 20% 13%
Lampiran 4 Nilai Root-mean-squared error (rmse) untuk masing-masing data training dan data tes yang ada Nilai rmse untuk 500 data training Atribut yang diprediksi jumlah data c1 c2 c3 c4 200 0.3152 0.327 0.2198 0.2114 400 0.2247 0.2789 0.1689 0.165 600 0.2247 0.2849 0.1469 0.1651 800 0.2526 0.2984 0.1442 0.254 1000 0.2217 0.2456 0.2133 0.2102 Rata-rata 0.24778 0.28696 0.17862 0.20114 Nilai rmse untuk 1000 data training jumlah data Atribut yang diprediksi c1 c2 c3 c4 200 0.2961 0.4175 0.226 0.1974 400 0.2465 0.3278 0.1712 0.163 600 0.2627 0.2952 0.15 0.1632 800 0.2462 0.3502 0.1437 0.2534 1000 0.2195 0.2988 0.2043 0.1979 Rata-rata 0.2542 0.3379 0.17904 0.19498
c5 0.26 0.3029 0.3678 0.2743 0.2603 0.29306
c5 0.3358 0.3978 0.4193 0.4049 0.3949 0.39054
21
Lampiran 4 Lanjutan Nilai rmse untuk 1500 data training jumlah data Atribut yang diprediksi c1 c2 c3 c4 200 0.2747 0.3961 0.2579 0.2434 400 0.2679 0.353 0.2001 0.1889 600 0.2894 0.3565 0.1628 0.1798 800 0.2368 0.3486 0.1642 0.2957 1000 0.2202 0.3098 0.258 0.2549 Rata-rata 0.2578 0.3528 0.2086 0.23254
c5 0.3817 0.399 0.4519 0.3941 0.361 0.39754
Nilai rmse untuk 2000 data training jumlah data Atribut yang diprediksi c1 c2 c3 c4 200 0.2653 0.4709 0.283 0.2448 400 0.2865 0.4357 0.2193 0.2015 600 0.3117 0.4319 0.1759 0.1884 800 0.2406 0.4312 0.1811 0.305 1000 0.2382 0.4019 0.2762 0.2667 Rata-rata 0.26846 0.43432 0.2271 0.24128
c5 0.4442 0.4701 0.5054 0.4765 0.4323 0.4657
Nilai rmse untuk 2500 data training jumlah data Atribut yang diprediksi c1 c2 c3 c4 200 0.2741 0.4088 0.2404 0.2227 400 0.2716 0.3676 0.1855 0.1819 600 0.2948 0.3706 0.1594 0.1767 800 0.2359 0.3552 0.1522 0.2834 1000 0.2212 0.333 0.2304 0.243 Rata-rata 0.25952 0.36704 0.19358 0.22154
c5 0.4749 0.512 0.5484 0.5293 0.4756 0.50804