PENGEMBANGAN APLIKASI DATA MINING MENGGUNAKAN FUZZY ASSOCIATION RULES
Oleh : ARSHA MUSTIKA G64102044
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2006
ii
ABSTRAK ARSHA MUSTIKA. Pengembangan Aplikasi Data Mining Menggunakan Fuzzy Association Rules. Dibimbing oleh IMAS SUKAESIH SITANGGANG dan AZIZ KUSTIYO. Banyaknya kegiatan yang dilakukan secara terkomputerisasi menyebabkan penyimpanan data menjadi semakin mudah. Namun data yang dibiarkan menumpuk tanpa dianalisis lebih dalam mengakibatkan data tersebut tidak mempunyai nilai guna lebih di masa mendatang. Persoalan tersebut merupakan salah satu persoalan yang dapat diatasi oleh data mining. Data mining merupakan proses ekstraksi informasi atau pola dalam basis data yang berukuran besar. Salah satu teknik dalam data mining yaitu association rule mining berguna untuk menyingkap keterkaitan antara suatu item data dengan item data lainnya yang digambarkan dengan aturan-aturan asosiasi. Konsep fuzzy yang diterapkan dalam association rule mining dapat lebih baik dalam menangani nilai numerik, karena himpunan fuzzy ”memperhalus” batasan yang tegas. Terlebih lagi dengan konsep fuzzy, aturan asosiasi yang ditemukan dapat lebih dipahami oleh manusia. Pada penelitian ini dikembangkan suatu aplikasi data mining yang dapat menemukan aturanaturan asosiasi pada data Potensi Desa (PODES) 2003 di pulau Jawa. Proses data mining dalam aplikasi yang dikembangkan pada penelitian ini menggunakan algoritma Fuzzy Quantitative Association Rules Mining yang secara garis besar dibagi menjadi tiga bagian, yaitu transformasi dari basis data awal ke dalam bentuk himpunan fuzzy menggunakan algoritma Fuzzy C-Means (FCM), pembentukan frequent itemset, dan pembentukan aturan asosiasi. Setelah dicobakan berbagai kombinasi nilai minimum fuzzy support (minsup) dan minimum fuzzy confidence (minconf) didapatkan bahwa sebagian besar aturan asosiasi memiliki nilai fuzzy confidence yang tinggi karena nilai fuzzy support gabungan antecedent dengan consequent-nya juga tinggi. Parameter yang paling mempengaruhi jumlah aturan asosiasi yang dihasilkan adalah nilai minsup. Dengan menggunakan kombinasi yang tertinggi dari seluruh kombinasi yang dicobakan dalam menemukan aturan asosiasi, yaitu nilai minsup sebesar 90% dan minconf 90%, dihasilkan 16 aturan asosiasi. Setelah dievaluasi menggunakan nilai lift 1.04 didapatkan 2 aturan asosiasi mengenai keterkaitan antara jumlah keluarga pengguna listrik PLN dan jumlah bangunan permanen. Di lain pihak, jika dievaluasi menggunakan nilai mincorr 0.8, didapatkan 5 aturan asosiasi mengenai keterkaitan antara jumlah pengangguran, jumlah murid SD yang DO, jumlah keluarga pengguna listrik PLN, dan jumlah bangunan permanen. Kata kunci: data mining, fuzzy association rules
iii
PENGEMBANGAN APLIKASI DATA MINING MENGGUNAKAN FUZZY ASSOCIATION RULES
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Oleh : ARSHA MUSTIKA G64102044
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2006
iv
Judul
: Pengembangan Aplikasi Data Mining Menggunakan Fuzzy Association Rules Nama : Arsha Mustika NIM : G64102044
Menyetujui: Pembimbing I,
Pembimbing II,
Imas S. Sitanggang, S.Si., M.Kom. NIP 132206235
Aziz Kustiyo, S.Si., M.Kom. NIP 132206241
Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. Ir. Yonny Koesmaryono, MS NIP 131473999
Tanggal Lulus :
iv
PRAKATA Alhamdulillahi Rabbil ‘alamin, puji dan syukur penulis panjatkan kepada Allah SWT atas segala curahan rahmat dan karunia-Nya sehingga penelitian ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Januari 2006 ini ialah data mining, dengan judul Pengembangan Aplikasi Data Mining Menggunakan Fuzzy Association Rules. Penyelesaian penelitian ini tidak terlepas dari bantuan berbagai pihak, karena itu penulis mengucapkan terima kasih sebesar-besarnya kepada: 1. Ayahanda Winarno Basuki dan Ibunda Peni Lestari, serta adik-adikku Juwita dan Nia atas doa, kasih sayang, dan kehangatannya yang tidak pernah berhenti tercurah selama ini, 2. Ibu Imas S. Sitanggang, S.Si., M.Kom. selaku pembimbing I, Bapak Aziz Kustiyo, S.Si., M.Kom. selaku pembimbing II dan Bapak Hari Agung Adrianto, S.Kom. selaku dosen penguji, 3. Teman-teman satu lab: Anggy, Mutia, Phia, Edward, dan Melissa atas kerjasamanya, 4. Nafi dan Alfath atas dukungan dan bantuan yang telah diberikan, serta Dian dan Zae atas kesabarannya dalam menjawab pertanyaan-pertanyaan dari Penulis, 5. Rekan-rekan BEM FMIPA IPB tahun 2003/2004 terutama Henny, Erna, Eden, Kak Vanny, Kak Baim, Kak Wanto, Sangga, Dicky dan Irwan, atas persaudaraan dan kebersamaannya, 6. Sahabat-sahabat Ilkomerz 39, semoga Allah SWT selalu menyambungkan tali silaturahmi antara kita, 7. Saudari-saudari di Pondok Berkah: Mbak Neni, Mbak Wiwik, Mbak Fida, Retno dan Sari, dan 8. Seluruh staf dan karyawan Departemen Ilmu Komputer, serta pihak lain yang telah membantu dalam penyelesaian penelitian ini. Segala kesempurnaan hanya milik Allah SWT, semoga hasil penelitian ini dapat bermanfaat, Amin.
Bogor, Juni 2006
Arsha Mustika
v
RIWAYAT HIDUP Penulis dilahirkan di Malang pada tanggal 10 Maret 1985 dari ayah Winarno Basuki dan ibu Peni Lestari. Penulis merupakan putri pertama dari tiga bersaudara. Tahun 2002 penulis lulus dari SMU Negeri I Pasuruan. Pada tahun yang sama penulis diterima di Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor melalui jalur Seleksi Penerimaan Mahasiswa Baru (SPMB). Selama mengikuti perkuliahan, penulis pernah menjadi pengurus Badan Eksekutif Mahasiswa FMIPA tahun kepengurusan 2003/2004. Selain itu, penulis juga pernah menjadi pengurus Koran Kampus IPB tahun kepengurusan 2004/2005. Pada tahun 2005, penulis pernah melakukan kegiatan praktik lapangan selama dua bulan di Kantor Pusat PT Pertamina (Persero) Jakarta.
vi
DAFTAR ISI
Halaman DAFTAR TABEL...........................................................................................................................vii DAFTAR GAMBAR ......................................................................................................................vii DAFTAR LAMPIRAN...................................................................................................................vii PENDAHULUAN Latar Belakang ...................................................................................................................... 1 Tujuan Penelitian ................................................................................................................... 1 Ruang Lingkup Penelitian...................................................................................................... 1 Manfaat Penelitian ................................................................................................................. 1 TINJAUAN PUSTAKA Basis Data............................................................................................................................... 1 Knowledge Discovery in Database (KDD) ............................................................................ 1 Fuzzy Association Rules ......................................................................................................... 2 Fuzzy Support ......................................................................................................................... 2 Fuzzy Confidence ................................................................................................................... 3 Fuzzy Correlation................................................................................................................... 3 Evaluasi Pola Asosiasi............................................................................................................ 3 Fuzzy C-Means (FCM) ........................................................................................................... 4 Validitas Fuzzy Clustering ..................................................................................................... 4 METODE PENELITIAN Proses Dasar Sistem ............................................................................................................... 5 Lingkungan Pengembangan Sistem........................................................................................ 6 HASIL DAN PEMBAHASAN Transformasi Data .................................................................................................................. 6 Pembersihan Data................................................................................................................... 6 Seleksi Data............................................................................................................................ 6 Data Mining ........................................................................................................................... 6 Transformasi ke Bentuk Himpunan Fuzzy................................................................... 6 Pembentukan Frequent Itemset ................................................................................... 7 Pembentukan Aturan Asosiasi ..................................................................................... 7 Evaluasi Pola .......................................................................................................................... 8 Presentasi Pengetahuan .......................................................................................................... 9 KESIMPULAN DAN SARAN Kesimpulan............................................................................................................................. 9 Saran..................................................................................................................................... 10 DAFTAR PUSTAKA ..................................................................................................................... 10 LAMPIRAN.................................................................................................................................... 11
vii
DAFTAR TABEL Halaman 1 2 3
Daftar atribut yang terpilih......................................................................................................... 6 Nilai minimum, nilai maksimum dan jumlah anggota himpunan fuzzy ..................................... 7 Aturan asosiasi untuk nilai minsup 90% dan minconf 90%....................................................... 8
DAFTAR GAMBAR Halaman 1 2 3 4 5 6
Tahapan dalam KDD (Han & Kamber 2001) ............................................................................ 2 Algoritma Fuzzy Quantitative Association Rules Mining (Gyenesei 2000)............................... 5 Jumlah frequent itemset pada beberapa nilai minsup................................................................. 7 Jumlah aturan asosiasi pada beberapa nilai minsup dan minconf .............................................. 8 Jumlah aturan asosiasi dengan beberapa nilai lift pada beberapa nilai minsup dan minconf 90%.............................................................................................................................. 9 Jumlah aturan asosiasi dengan beberapa nilai fuzzy correlation pada beberapa nilai minsup dan minconf 90% .................................................................................................. 9
DAFTAR LAMPIRAN Halaman 1 2 3 4 5 6 7
Diagram alir proses dasar sistem.............................................................................................. 12 Contoh data PODES 2003 di pulau Jawa................................................................................. 13 Hasil validasi cluster................................................................................................................ 14 Hasil transformasi data PODES ke dalam bentuk fuzzy........................................................... 15 Hasil pembentukan frequent itemset pada nilai minsup 50%................................................... 16 Jumlah aturan aturan asosiasi yang dihasilkan dari berbagai kombinasi minsup dan minconf dan dievaluasi dengan lift .......................................................................................... 17 Jumlah aturan aturan asosiasi yang dihasilkan dari berbagai kombinasi minsup dan minconf dan dievaluasi dengan fuzzy correlation .................................................................... 19
1
PENDAHULUAN Latar Belakang Dewasa ini, ketersediaan data semakin melimpah, apalagi ditunjang dengan banyaknya kegiatan yang sudah dilakukan secara terkomputerisasi. Namun seringkali data tersebut hanya disimpan tanpa diolah lebih lanjut sehingga tidak mempunyai nilai guna lebih untuk keperluan di masa mendatang. Padahal jika dianalisis lebih dalam, data tersebut dapat menghasilkan informasi atau pengetahuan yang penting dan berharga. Persoalan di atas merupakan salah satu persoalan dari sekian banyak potensi permasalahan yang ada yang dapat diatasi oleh data mining. Data mining merupakan proses ekstraksi informasi atau pola dalam basis data yang berukuran besar (Han & Kamber 2001). Association rule mining sebagai salah satu metode dalam data mining berguna untuk menemukan aturan asosiasi pada basis data. Pada dasarnya aturan asosiasi digunakan untuk menggambarkan keterkaitan antaritem pada sekumpulan data. Penggalian aturan asosiasi di antara record yang jumlahnya sangat banyak dapat membantu dalam proses pengambilan keputusan (Han & Kamber 2001). Salah satu contoh aturan asosiasi yaitu ”10% dari orang-orang yang telah menikah yang berusia antara 50 dan 70 tahun mempunyai mobil minimal dua buah”. Beberapa metode association rule untuk menangani atribut kuantitatif telah diajukan sebelumnya, salah satunya metode partition yang menemukan aturan asosiasi dengan memartisi domain atribut dan mengombinasikan partisi yang adjacent kemudian mengubahnya ke dalam bentuk binary. Menurut Kuok et al. (1998), walaupun metode tersebut dapat memecahkan masalah yang diakibatkan oleh domain yang tak terbatas, metode tersebut menyebabkan batasan partisi yang terlalu tegas. Metode tersebut juga mengabaikan elemen yang terletak di dekat batasan partisi (boundary elements). Dengan konsep fuzzy, aturan asosiasi yang ditemukan dapat lebih dipahami oleh manusia. Terlebih lagi, himpunan fuzzy dapat lebih baik dalam menangani nilai numerik daripada metode yang telah ada, karena himpunan fuzzy ”memperhalus” batasan yang tegas. Contoh aturan asosiasi dengan menggunakan himpunan fuzzy adalah ”10% dari orang-orang yang telah menikah yang
berusia tua mempunyai beberapa mobil” (Gyenesei 2000). Tujuan Penelitian Tujuan dari penelitian ini adalah: 1. Menerapkan tahapan-tahapan proses Knowledge Discovery in Databases (KDD) menggunakan metode fuzzy association rules mining. 2. Mengembangkan aplikasi data mining dengan metode fuzzy association rules mining untuk mengetahui keterkaitan antara beberapa item data pada data PODES (Potensi Desa) 2003. Ruang Lingkup Penelitian Penelitian ini dibatasi pada penerapan data mining menggunakan metode fuzzy association rules mining pada 5 atribut pada data PODES 2003 di pulau Jawa. Pembentukan himpunan fuzzy dilakukan menggunakan algoritma Fuzzy C-Means dan validasi cluster-nya menggunakan indeks Xie-Beni. Penelitian ini akan menghasilkan aplikasi data mining menggunakan metode fuzzy association rules mining. Manfaat Penelitian Aplikasi yang dihasilkan pada penelitian ini diharapkan dapat digunakan untuk mengetahui keterkaitan antara suatu item data dengan item data lainnya pada data PODES 2003. Keterkaitan tersebut dapat digunakan sebagai bahan pertimbangan dalam pengambilan keputusan.
TINJAUAN PUSTAKA Basis Data Basis data merupakan sekumpulan data/entitas (beserta deskripsinya) yang berhubungan secara logika, dibuat untuk memenuhi kebutuhan informasi suatu organisasi. Sistem Manajemen Basis Data (Database Management System) adalah sistem perangkat lunak yang memungkinkan pengguna mendefinisikan, menciptakan dan mengelola suatu basis data, serta menyediakan akses kontrol terhadap basis data tersebut (Connolly & Begg 2002). Knowledge Discovery in Database (KDD) Knowledge discovery merupakan suatu proses menemukan pengetahuan dari suatu basis data yang terdiri atas urutan langkahlangkah seperti diilustrasikan pada Gambar 1 (Han & Kamber 2001):
2
1. 2. 3. 4.
5.
6.
7.
Pembersihan data: data dibersihkan untuk menghilangkan noise dan data yang tidak konsisten. Pengintegrasian data: data digabungkan dari berbagai sumber. Seleksi data: data yang relevan dengan proses analisis diambil dari basis data Transformasi data: data ditransformasikan atau digabungkan ke dalam bentuk yang sesuai untuk di-mining dengan cara dilakukan peringkasan atau operasi agregasi. Terkadang transformasi data dilakukan sebelum seleksi data terutama pada kasus data warehouse. Data mining: merupakan proses yang penting dalam KDD dimana metodemetode cerdas diaplikasikan untuk mengekstrak pola-pola data. Evaluasi pola: untuk mengidentifikasi pola-pola yang menarik yang merepresentasikan pengetahuan berdasarkan suatu ukuran kemenarikan. Presentasi pengetahuan: merepresentasikan pengetahuan yang telah digali kepada pengguna dengan memvisualisasikan pengetahuan tersebut.
Gambar 1 Tahapan dalam KDD (Han & Kamber 2001) Fuzzy Association Rules Misal D = {t1, t2, … , tn} adalah suatu basis data dan ti adalah record ke-i dalam D. I = {i1, i2, …, im} merepresentasikan atributatribut dalam D dengan ij adalah atribut ke-j. I disebut juga itemset. Tiap atribut atau item berelasi dengan beberapa himpunan fuzzy. Bentuk dari sebuah fuzzy association rule adalah sebagai berikut (Kuok et al. 1998): “Jika X = {x1, x2,… , xp} adalah A = {fx1, fx2,…, fxp} maka Y = {y1, y2, … , yq} adalah B = {gy1, gy2, … , gyq}”
dengan fxi ∈ {himpunan fuzzy yang berelasi dengan atribut xi}, gyj ∈ {himpunan fuzzy yang berelasi dengan atribut yj}, dan X, Y adalah itemset. X, Y adalah himpunan bagian dari I, dan X, Y saling lepas yang berarti X, Y tidak mempunyai atribut yang sama. A dan B berisi himpunan fuzzy yang berelasi dengan atribut dalam X dan Y. Bagian pertama dari aturan asosiasi yaitu ‘X adalah A’ disebut sebagai antecedent dan ‘Y adalah B’ disebut sebagai consequent. Aturan asosiasi tersebut mempunyai arti jika ‘X adalah A’ dipenuhi, maka dapat diimplikasikan bahwa ‘Y adalah B’ juga dipenuhi. Maksud dari dipenuhi di sini yaitu record yang berkontribusi pada pasangan atribut-himpunan fuzzy jumlahnya lebih besar dari batasan yang ditentukan pengguna (Kuok et al. 1998). Menarik atau tidaknya sebuah aturan asosiasi dapat ditentukan dengan significance factor berupa nilai fuzzy support dan certainty factor berupa nilai fuzzy confidence. Selain menggunakan nilai fuzzy confidence, certainty factor dapat juga berupa nilai fuzzy correlation. Fuzzy Support Untuk membangkitkan aturan asosiasi, langkah pertama adalah menemukan frequent itemset, yaitu semua itemset yang memiliki fuzzy support di atas minimum fuzzy support (minsup). Fuzzy support dari itemset 〈X,A〉, pada himpunan transaksi D adalah (Kuok et al.1998): ∑ti∈D ∏ x j∈X {α a j (ti [ x j ])} (1) FS X , A = total ( D ) dengan ma j ∈A (ti [ x j ]) jika ma ≥ ω j α a j (ti [ x j ]) = 0 selainnya ma j ∈A (ti [ x j ]) adalah derajat keanggotaan dari xj pada record ke-i
{
Kontribusi dari tiap record dihitung dengan derajat keanggotaan dari tiap xj pada record tersebut. Derajat keanggotaan tidak boleh kurang dari batasan derajat keanggotaan minimum yaitu ω. Dengan demikian nilai derajat keanggotaan yang rendah diabaikan.
3
Fuzzy Confidence Frequent itemset yang telah ditemukan digunakan untuk membangkitkan semua aturan asosiasi yang mungkin. Semua himpunan bagian dari sebuah frequent itemset menjadi frequent juga. Jika gabungan dari antecedent dan consequent mempunyai nilai fuzzy confidence (dan nilai fuzzy correlation) yang tinggi, maka aturan asosiasi tersebut dapat dikatakan menarik. Batasan untuk menentukan aturan asosiasi yang menarik disebut minimum fuzzy confidence (minconf). Nilai fuzzy confidence dari suatu aturan asosiasi dihitung menggunakan formula berikut (Kuok et al. 1998): fuzzy support dari 〈Z,C〉 FC X , A Y , B = fuzzy support dari 〈X,A〉
= dengan
α a (ti [ x j ]) = j
∑ ∑
t i ∈D
∏ z k ∈Z {α a k (ti [ zk ])}
∏ x j ∈ X {α a j (ti [ x j ])} t ∈D
{
(2)
i
ma j ∈A (ti [ x j ]) jika ma ≥ ω j
0 selainnya ma j ∈A (ti [ x j ]) adalah derajat keanggotaan dari xj pada record ke-i
Z = X ∪ Y, C = A ∪ B. Fuzzy Correlation Dalam data mining, sebuah aturan asosiasi X ⇒ Y bermakna X berimplikasi pada Y, dan tidak dapat diasumsikan bahwa Y juga berimplikasi pada X dikarenakan distribusi data dari X dan Y. Karena itulah rumus nilai harapan atau nilai rata-rata diubah disesuaikan dengan teknik fuzzy association rules. Persamaan berikut digunakan untuk menghitung fuzzy correlation (Kuok et al. 1998): FCorr
=
X , A Y ,B
Cov ( X , Y )
(3)
Var ( X ).Var (Y )
dengan Cov( X , Y ) = E [ Z , C ] − E [ X , A ].E ' [ Y , B ] (4) (5) (6) (7)
Z = X ∪ Y ,C = A ∪ B 2
2
Var(X) = E[〈X,A〉 ] - E[〈X,A〉] Var(Y) = E[〈Y,B〉2] - E[〈Y,B〉]2 ∑t ∈D ∏ x ∈X {α a (ti [ x j ])}
E[ X , A ] =
α a (ti [ x j ]) = j
E' [ Y , B ] =
j
i
(8)
j
total ( D)
{ ∑
m a j ∈ A (t i [ x j ]) jika ma ≥ ω j
0
ti ∈D
selainnya ∏ yk ∈Y β [t i ]
total ( D )
(9)
β [ti ] =
{
∏ yk ∈Y {α a j (ti [ x j ])}
0
jika γ ≥ ω selainnya
γ = ∏ {α a (ti [ yk ])} x j ∈X
j
Pada persamaan (8), dapat dilihat bahwa perhitungan E[〈X,A〉] sama dengan nilai harapan biasa, kecuali persamaan tersebut mengambil batasan ω. E’[〈Y,B〉] menghitung nilai harapan dari consequent. Jika perkalian derajat keanggotaan pada antecedent pada suatu record kurang dari ω, maka kontribusi consequent dari record tersebut akan bernilai nol. Nilai dari fuzzy correlation berada dalam rentang [-1,1]. Jika nilainya positif, maka bisa dikatakan bahwa antecedent dan consequent dari suatu aturan asosiasi berkorelasi. Semakin tinggi nilainya maka semakin berkorelasi. Dengan demikian suatu aturan asosiasi dipertahankan jika nilai fuzzy correlation-nya lebih dari 0 (Kuok et al. 1998). Suatu batasan untuk fuzzy correlation aturan asosiasi dapat juga ditentukan dari pengguna. Batasan tersebut dinamakan minimum fuzzy correlation (mincorr). Evaluasi Pola Asosiasi Kebanyakan algoritma asosiasi berpotensi menghasilkan aturan asosiasi dalam jumlah yang besar. Dengan demikian diperlukan sekumpulan kriteria yang diterima secara umum untuk mengevaluasi kualitas dari aturan asosiasi yang dihasilkan. Nilai support dan confidence berguna untuk mengeliminasi pola-pola yang tidak menarik. Namun terkadang pada beberapa kasus, nilai confidence yang tinggi dapat menipu, karena mungkin saja dari nilai confidence yang tinggi tersebut pengguna mengira bahwa suatu aturan A ⇒ B adalah menarik, padahal kenyataannya kemunculan A tidak mengimplikasikan kemunculan B. Hal ini dikarenakan confidence mengabaikan support dari itemset yang berkedudukan sebagai consequent dari suatu aturan. Ada beberapa ukuran objektif seberapa menariknya suatu aturan asosiasi, salah satunya adalah Lift. Lift menghitung rasio antara confidence dengan support dari consequent. Lift dari suatu aturan asosiasi dihitung menggunakan formula berikut (Tan et al. 2006): c( A → B) (10) Lift = s ( B)
4
dengan A adalah antecedent dari suatu aturan asosiasi B adalah consequent dari suatu aturan asosiasi c(A→B) adalah confidence dari suatu aturan asosiasi s(B) adalah support dari consequent suatu aturan asosiasi Jika lift dari suatu aturan asosiasi besarnya sama dengan 1, maka dapat dikatakan bahwa antecedent dan consequent dari aturan asosiasi tersebut adalah independent satu sama lain. Jika lift > 1 maka antecedent dan consequent-nya saling berkorelasi positif. Jika lift < 1 maka antecedent dan consequent-nya saling berkorelasi negatif. Fuzzy C-Means (FCM) Fuzzy C-Means (FCM) adalah salah satu algoritma fuzzy clustering yang paling banyak digunakan. FCM mencoba untuk menemukan pusat cluster dan selanjutnya menetapkan derajat keanggotaan untuk setiap objek dalam cluster. Algoritme FCM dibangun berdasarkan pada minimisasi dari fungsi objektif secara iteratif. Fungsi objektif tersebut adalah (Wang 1997): J m (U , V ) =
n
c
∑ ∑ (uik ) m
k =1 i =1
x k − vi
2
(11)
dengan x1 , x 2 ,..., x n adalah n vektor sampel data. U = [ u ik ] adalah sebuah matriks c x n, uik menyatakan nilai keanggotaan ke-i dari sampel masukan ke-k, xk. Nilai-nilai keanggotaan tersebut memenuhi kondisi berikut: 0 ≤ uik ≤ 1, i=1,2,...,c; k=1,2,...,n c
∑u i =1
ik
=1 ,
n
k=1,2,...,n
0 < ∑uik < n ,
i=1,2,...,c
k =1
V = {v1, v2,...,vc} adalah pusat cluster m ∈ (1,∞) adalah konstanta pembobot Tujuan algoritma FCM adalah menemukan U dan V sedemikian sehingga Jm(U,V) adalah minimal. Fungsi objektif Jm(U,V) merupakan penjumlahan dari kuadrat jarak Euclidean antara masing-masing sampel input dan pusat cluster yang sesuai dengan sampel tersebut, dengan jarak terboboti oleh nilai keanggotaan. Pusat cluster secara iteratif
dihitung dengan formula berikut (Wang 1997): n
∑ (uik ) m xk
vi = k =1
(12)
n
∑ (uik ) m
k =1
Nilai keanggotaan dihitung secara iteratif menggunakan formula berikut (Wang 1997): 1 uik = 2 m −1 c ⎛ ⎞ (13) ⎜ x k − vi ⎟ ∑ ⎟ ⎜ x v − j =1 ⎝ k j ⎠ dengan i = 1, 2, ..., c; k = 1, 2, ..., n. Validitas Fuzzy Clustering Tujuan dilakukannya validasi fuzzy clustering yaitu untuk mencari skema clustering dimana sebagian besar vektor dari suatu himpunan data menunjukkan derajat keanggotaan yang tinggi dalam suatu cluster. Fuzzy clustering didefinisikan oleh matriks U = ⏐uij⏐, dimana uij menyatakan derajat keanggotaan vektor xi dalam cluster j. Ada beberapa macam kategori validitas fuzzy. Kategori pertama hanya menggunakan derajat keanggotaan uij dari suatu himpunan fuzzy dari suatu data, contoh dari kategori ini adalah koefisien partisi dan koefisien entropi partisi. Kategori yang lain melibatkan baik matriks U maupun himpunan data itu sendiri, contoh dari kategori ini adalah indeks XieBeni (Halkidi et al. 2002). Koefisien partisi dihitung berdasarkan formula berikut (Halkidi et al. 2002): PC =
1 N nc 2 ∑∑ u N i =1 j =1 ij
(14)
Nilai indeks PC berada dalam range [1/nc,1], dimana nc adalah banyaknya cluster. Jika indeks cluster semakin mendekati satu maka clustering semakin bersifat crisp. Jika PC=1 maka U hanya terdiri atas 0 dan 1, dengan kata lain tidak diperoleh cluster yang fuzzy. Jika semua nilai keanggotaan pada partisi fuzzy adalah sama, maka uij = 1/nc, dan PC mendapat nilai terendah. Dengan demikian nilai PC mendekati 1/nc dan clustering semakin fuzzy. Semakin meningkat nilai PC, maka partisi dari himpunan data lebih efektif (Halkidi et al. 2002). Menurut Xie dan Beni (1991), untuk mengukur rata-rata kekompakan dan pemisahan dari sebuah fuzzy c-partition digunakan indeks S sebagai fungsi validitas
5
fuzzy clustering. S didefinisikan sebagai rasio antara kekompakan π dengan pemisahan s. π S= s (σ n ) =
(d min )2 c
=
n
∑∑ μ i =1 j =1
2 ij
Vi − X j
n min Vi − V j
2
(15)
2
i, j
dengan σ adalah total ragam dari himpunan data X n adalah jumlah titik data pada X c adalah jumlah cluster Vi adalah pusat cluster ke-i μij adalah keanggotaan fuzzy dari titik data ke-j pada cluster ke-i Semakin kecil nilai S, maka semakin kompak seluruh cluster yang dihasilkan dan saling terpisah antara cluster satu dengan yang lainnya.
METODE PENELITIAN Proses Dasar Sistem Proses dasar sistem mengacu pada proses dalam Knowledge Discovery in Database (KDD). Diagram alir dari langkah-langkah yang dilakukan dapat dilihat pada Lampiran 1. Proses tersebut dapat diuraikan sebagai berikut: 1. Transformasi Data Pada tahap ini, data ditransformasikan ke dalam bentuk yang sesuai untuk proses selanjutnya. Jika format data belum sesuai, maka dikonversi terlebih dahulu ke dalam format yang dapat diolah dengan perangkat lunak yang akan digunakan. 2. Pembersihan Data Pada tahap ini, data yang mengandung nilai yang hilang (kosong), data yang mengandung noise, maupun data yang tidak konsisten dibuang. 3. Seleksi Data Tahap ini menentukan data mana yang relevan untuk terhadap analisis. 4. Data Mining Tahap ini merupakan inti untuk melakukan proses analisis terhadap data. Proses ini menggunakan algoritma Fuzzy Quantitative Association Rules Mining yang diajukan oleh Gyenesei (2000). Algoritma tersebut disajikan pada Gambar 2.
Input
: sebuah basis data D, tiga buah nilai batasan minsup, mincof dan mincorr Output : sederetan aturan asosiasi yang menarik Notasi : D : basis data DT : basis data yang telah ditransformasi Fk : himpunan frequent k-itemset (mempunyai k item) Ck : himpunan candidate k-itemset (mempunyai k item) I : himpunan item yang lengkap minsup : batasan support minconf : batasan confidence Algorithm (minsup,minconf,D) I = Search(D); (C1,DT) = Transform(D,I); k = 1; (Ck,Fk) = Checking(Ck,DT,minsup); while (|Ck| ≠ Ø) do begin inc(k); if k==2 then Ck = Join1(Ck-1); else Ck = Join2(Ck-1); Ck = Prune(Ck); (Ck,Fk) = Checking(Ck,DT,minsup); F = F ∪ Fk; end Rules(F,minconf); Gambar 2 Algoritma Fuzzy Quantitative Association Rules Mining (Gyenesei 2000) Penjelasan algoritma: i. Search(D): mencari dan mengembalikan himpunan item yang lengkap dari basis data yaitu I = {i1, i2, …, im}. ii. Transform(D,I): membangkitkan basis data yang telah ditransformasi (fuzzy) DT dari basis data awal. Untuk menentukan bentuk fungsi keanggotaan dari himpunan fuzzy digunakan metode FCM. Kemudian candidate 1-itemset C1 dibangkitkan dari DT. iii. Checking(Ck,DT,minsup): DT ditelusuri dan fuzzy support dari candidate Ck dihitung. Jika fuzzy support lebih besar atau sama dengan minsup, maka disimpan dalam Ck. Pada saat yang sama frequent itemset Fk.akan dibangkitkan dari Ck.. iv. Join1(Ck-1): langkah ini membangkitkan C2 dari C1 dengan cara sebagai berikut:
6
insert into C2 select 〈X,A〉, 〈Y,B〉, from 〈X,A〉, 〈Y,B〉 in C1 where X ≠ Y v. Join2(Ck-1): membangkitkan Ck dari Ck-1. vi. Prune(Ck): selama langkah prune, itemset akan dibuang jika sebuah himpunan bagian dari candidate itemset dalam Ck tidak ada dalam Ck-1. vii. Rules(F,minconf): menemukan aturan asosiasi dari frequent itemset F. 5. Evaluasi Pola Pada tahap ini, aturan asosiasi yang dihasilkan dievaluasi berdasarkan ukuran kemenarikan objektif lift dan fuzzy correlation. 6. Presentasi Pengetahuan Tahap ini merupakan tahap akhir dimana sederetan aturan asosiasi yang telah ditemukan diperlihatkan kepada pengguna. Lingkungan Pengembangan Sistem Spesifikasi perangkat keras dan perangkat lunak pada komputer personal yang digunakan dalam pengembangan sistem adalah sebagai berikut: a. Perangkat keras: - Processor: AMD AthlonTM XP 2400+ - Memory: 256 MB - Harddisk 40 GB - Keyboard dan mouse - Monitor b. Perangkat lunak: - Sistem operasi: Microsoft® Windows XP Professional - Microsoft® Visual Basic 6.0 sebagai bahasa pemrograman - DBMS: Microsoft® Access - MATLAB 6.5 - STATransfer
HASIL DAN PEMBAHASAN Transformasi Data Pada tahap ini, data PODES 2003 yang semula dalam format .sd2 ditransformasi ke dalam bentuk .mdb menggunakan perangkat lunak STATransfer. Pembersihan Data Tahap pembersihan data tidak perlu dilakukan, karena data yang digunakan sudah bersih. Seleksi Data Dari 750 atribut yang dimiliki oleh data PODES 2003, dipilih atribut-atribut numerik
saja karena hanya atribut numerik yang dapat diubah ke dalam himpunan fuzzy. Kemudian dari atribut-atribut numerik tersebut diambil 5 atribut saja yang dianggap menarik untuk dicari keterkaitannya, yaitu jumlah keluarga prasejahtera sejahtera I, jumlah pengangguran, jumlah keluarga pengguna listrik PLN, jumlah bangunan permanen, dan jumlah murid SD yang drop-out. Nama atribut dari basis data tersebut berupa kode yang keterangannya dapat dilihat pada Tabel 1. Kemudian dari seluruh desa di Indonesia yang berjumlah 65536 record, diambil desa yang terletak di pulau Jawa saja yaitu sebanyak 24962 record. Contoh data pada pulau Jawa tersebut dapat dilihat pada Lampiran 2. Tabel 1 Daftar atribut yang terpilih Kode atribut V403A1 V406 V501B1 V507A V603
Keterangan Jumlah keluarga prasejahtera sejahtera I Jumlah pengangguran Jumlah keluarga pengguna listrik PLN Jumlah bangunan permanen Jumlah murid SD yang dropout
Data Mining Tahap data mining menggunakan algoritma yang diajukan oleh Gyenesei (2000). Secara garis besar, proses ini dibagi menjadi tiga bagian, yaitu transformasi dari basis data awal ke dalam bentuk himpunan fuzzy, pembentukan frequent itemset, dan pembentukan aturan asosiasi. Transformasi ke Bentuk Himpunan Fuzzy Tabel yang berisi data pulau Jawa yang terdiri dari 5 atribut satu-persatu ditransformasikan ke dalam himpunan fuzzy menggunakan metode FCM dengan perangkat lunak MATLAB 6.5. Parameter input yang digunakan dalam FCM antara lain: iterasi maksimum adalah 100, error terkecil yang diharapkan adalah 10-5, dan pangkat pembobot adalah 2. Iterasi maksimum dipilih 100 kali karena dengan jumlah iterasi maksimum sebanyak 100 kali tersebut sudah didapatkan hasil peng-clusteran terbaik. Di lain pihak, untuk parameter error terkecil dan pangkat pembobot, nilainya ditentukan berdasarkan nilai yang telah banyak digunakan dalam referensireferensi mengenai FCM. Setelah divalidasi menggunakan metode Xie-Beni, ditemukan
7
Tabel 2 Nilai minimum, nilai maksimum dan jumlah anggota himpunan fuzzy Nilai Nilai Jumlah No Itemset min maks anggota V403A1, 670 9432 6095 1 banyak V403A, 2 0 669 18867 sedikit V406, 3 888 8831 1270 banyak V406, 4 0 887 23692 sedikit V501B1, 5 2261 12026 1441 banyak V501B1, 6 0 2260 23521 sedikit V507A, 7 1756 67610 1682 banyak V507A, 8 0 1754 23280 sedikit V603, 173 998 517 9 banyak V603, 10 0 172 24445 sedikit Pembentukan Frequent Itemset Pembentukan frequent itemset dilakukan dengan menghitung fuzzy support dari masing-masing item, mulai dari candidate 1itemset hingga candidate n-itemset. Itemset yang memiliki fuzzy support di atas minsup dinyatakan sebagai frequent itemset, sedangkan itemset selain itu dibuang. Ketika sampai pada candidate 2-itemset ke atas, sebelum pengecekan fuzzy support, dilakukan langkah prune. Jika himpunan bagian dari candidate k-itemset tidak ada pada candidate (k-1)-itemset maka candidate k-itemset tersebut dibuang. Pada penelitian ini, dilakukan beberapa percobaan dengan menggunakan nilai minsup
yang bervariasi dari 50% hingga 90%. Batasan minimum untuk derajat keanggotaan ω yang digunakan sebesar 0.5, mengingat jumlah himpunan fuzzy untuk tiap-tiap atribut adalah 2 himpunan. Dengan demikian, derajat keanggotaan minimum untuk memasukkan suatu titik data ke dalam suatu himpunan adalah 0.5. Pembentukan frequent itemset dari nilai minsup tersebut dapat dilihat pada Gambar 3. jumlah frequent itemset
cluster yang paling baik bagi masing-masing atribut adalah 2 cluster. Hasil validasi cluster masing-masing atribut dapat dilihat pada Lampiran 3. Hasil transformasi dari tabel awal yang semula terdiri dari 5 atribut adalah sebuah tabel yang terdiri dari 10 atribut (tiap atribut pada tabel awal diubah menjadi 2 himpunan fuzzy yaitu “sedikit” dan “banyak”) yang tiap record-nya berisi derajat keanggotaan. Contoh hasil transformasi tersebut sebagian dapat dilihat pada Lampiran 4, sedangkan nilai minimum, nilai maksimum dan jumlah anggota dari masing-masing himpunan fuzzy dapat dilihat pada Tabel 2.
40 30 20 10 0 50
60
70
80
90
minsup (%)
Gambar 3 Jumlah frequent itemset pada beberapa nilai minsup Pada Gambar 3 tampak bahwa jumlah frequent itemset cenderung semakin menurun dengan semakin meningkatnya nilai minsup. Hingga pada minsup 50% dan 60%, semua kombinasi frequent itemset dari frequent 1itemset hingga frequent 5-itemset masih lengkap. Pada nilai minsup 90%, frequent 3itemset ke atas sudah tidak ada lagi. Hasil pembentukan frequent itemset pada nilai minsup 50% dapat dilihat pada Lampiran 5. Pembentukan Aturan Asosiasi Dari semua frequent itemset yang telah didapat, dibangkitkan semua aturan asosiasi yang mungkin. Kemudian semua aturan asosiasi dihitung nilai fuzzy confidence-nya. Aturan-aturan asosiasi yang mempunyai nilai fuzzy confidence di atas minconf diambil, selainnya dibuang. Dari beberapa percobaan yang menggunakan nilai minimum fuzzy confidence yang bervariasi dari 10% hingga 90% dan nilai minimum fuzzy support dari 50% hingga 90%, didapatkan jumlah aturan asosiasi yang berbeda-beda. Secara umum, dari seluruh percobaan yang dilakukan jumlah aturan asosiasi cenderung menurun jika nilai minsup dinaikkan, namun tetap ada beberapa perkecualian. Perkecualian tersebut tampak pada Gambar 4, grafik minsup 50% berhimpit dengan grafik minsup 60%, dan grafik minsup 70% berhimpit dengan grafik minsup 80%. Hal ini dikarenakan jumlah frequent itemset yang dihasilkan pada nilai minsup
8
jumlah aturan asosiasi
50% sama dengan jumlah frequent itemset yang dihasilkan pada nilai minsup 60% adalah (lihat Gambar 3). Begitu juga pada nilai minsup 70% dan 80%, jumlah aturan asosiasi yang dihasilkan sama banyak. 200 160 120 80 40 0 10
20
30
40
50
60
70
80
90
minconf (%) minsup 50% minsup 80%
minsup 60% minsup 90%
minsup 70%
Pada Gambar 4 tampak bahwa secara keseluruhan jumlah aturan asosiasi yang dihasilkan cenderung tetap pada nilai minconf 10% hingga 60% kemudian cenderung menurun pada nilai minconf yang lebih tinggi dari 60%, kecuali pada nilai minconf 90% jumlah aturan asosiasi cenderung tetap untuk semua nilai minconf. Hal ini disebabkan oleh tingginya nilai fuzzy confidence yang dimiliki oleh sebagian besar frequent itemset. Contoh aturan asosiasi beserta nilai fuzzy support, fuzzy confidence, fuzzy correlation dan lift-nya ditampilkan pada Tabel 3. Aturan asosiasi tersebut dihasilkan pada nilai minsup 90%, minconf 90%.
Gambar 4 Jumlah aturan asosiasi pada beberapa nilai minsup dan minconf Tabel 3 Aturan asosiasi pada nilai minsup 90% dan minconf 90% No 1 2 3 4 5 6 7 8 9 10 11 12 13
Antecedent V406, sedikit V406, sedikit V406, sedikit V501B1, sedikit V501B1, sedikit V501B1, sedikit V507A, sedikit V507A, sedikit V507A, sedikit V603, sedikit V603, sedikit V603, sedikit V501B1, sedikit
14
V507A, sedikit
15
V406, sedikit; V603, sedikit V406, sedikit; V603, sedikit
16
Consequent V501B1, sedikit V507A, sedikit V603, sedikit V406, sedikit V507A, sedikit V603, sedikit V406, sedikit V501B1, sedikit V603, sedikit V406, sedikit V501B1, sedikit V507A, sedikit V406, sedikit; V603, sedikit V406, sedikit; V603, sedikit V501B1, sedikit
FConf 0.933188885 0.918503544 0.974717565 0.947369898 0.951385864 0.973550552 0.946142734 0.965344869 0.97356811 0.933237101 0.918167016 0.904906529
FCorr 0.649607647 0.582314345 0.814934493 0.727801383 0.835040786 0.817622622 0.741948026 0.892270689 0.834998086 0.336352768 0.270054863 0.198036778
Lift 1.020615986 1.019293943 1.005390509 1.020615986 1.055784547 1.004186772 1.019293943 1.055784547 1.004204883 1.005390509 1.004186772 1.004204883
0.924924843
0.648426361
1.022281349
0.923870028
0.668586224
1.021115505
0.934711591
0.717740444
1.022281349
0.920144986
0.663107455
1.021115505
V507A, sedikit
Evaluasi Pola Pada tahap ini, aturan asosiasi yang dihasilkan dievaluasi menggunakan lift dan fuzzy correlation. Karena nilai lift yang dimiliki oleh seluruh frequent itemset berada di atas 1, maka batasan nilai lift minimum hanya diambil yang berada di atas 1. Pada Gambar 5 disajikan hasil evaluasi menggunakan nilai lift yang berbeda-beda yang dicobakan pada aturan asosiasi yang
dihasilkan dengan beberapa nilai minsup, dan nilai minconf 90%. Nilai minconf diambil 90% karena nilai tersebut merupakan nilai batasan tertinggi dari seluruh kombinasi minconf yang dicobakan. Dari Gambar 5 tampak bahwa jumlah aturan asosiasi semakin menurun jika nilai lift dinaikkan. Selain menggunakan nilai lift, pengguna juga dapat menggunakan fuzzy correlation untuk mengevaluasi aturan-aturan asosiasi
9 yang dihasilkan. Pada Gambar 6 disajikan hasil evaluasi menggunakan nilai fuzzy correlation yang berbeda-beda dari 0.1 hingga 0.9 yang dicobakan pada aturan asosiasi yang dihasilkan dengan beberapa nilai minsup, dan nilai minconf 90%. Hasilnya hampir sama jika menggunakan nilai lift, dari Gambar 6 tampak bahwa jumlah aturan asosiasi semakin menurun jika nilai fuzzy correlation dinaikkan.
jumlah aturan asosiasi
80 60 40 20 0 1.02
1.04
1.06
1.08
1.1
nilai lift minimum minsup 50% minsup 80%
minsup 60% minsup 90%
minsup 70%
Gambar 5 Jumlah aturan asosiasi dengan beberapa nilai lift pada beberapa nilai minsup dan minconf 90% jumlah aturan asosiasi
100 80 60
•
Jika jumlah keluarga pengguna listrik PLN sedikit maka jumlah bangunan permanen sedikit • Jika jumlah bangunan permanen sedikit maka jumlah keluarga pengguna listrik PLN sedikit Untuk evaluasi menggunakan fuzzy correlation, diambil kombinasi nilai minsup 90%, nilai minconf 90% dan nilai mincorr 0.8. Aturan-aturan asosiasi yang dihasilkan dengan kombinasi nilai batasan tersebut adalah sebagai berikut: • Jika jumlah pengangguran sedikit maka jumlah murid SD yang DO sedikit • Jika jumlah keluarga pengguna listrik PLN sedikit maka jumlah bangunan permanen sedikit • Jika jumlah keluarga pengguna listrik PLN sedikit maka jumlah murid SD yang DO sedikit • Jika jumlah bangunan permanen sedikit maka jumlah keluarga pengguna listrik PLN sedikit • Jika jumlah bangunan permanen sedikit maka jumlah murid SD yang DO sedikit Jumlah aturan asosiasi yang dihasilkan pada berbagai kombinasi minsup, minconf, dan mincorr dapat dilihat pada Lampiran 7.
KESIMPULAN DAN SARAN
40 20 0 0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
mincorr minsup 50% minsup 80%
minsup 60% minsup 90%
minsup 70%
Gambar 6 Jumlah aturan asosiasi dengan beberapa nilai fuzzy correlation pada beberapa nilai minsup dan minconf 90% Presentasi Pengetahuan Dari berbagai percobaan, diambil kombinasi yang paling tinggi dari seluruh kombinasi yang dicobakan yang masih menyisakan aturan asosiasi. Jumlah aturan asosiasi yang dihasilkan pada berbagai kombinasi minsup, minconf, dan lift dapat dilihat pada Lampiran 6. Untuk evaluasi menggunakan lift, diambil kombinasi nilai minsup 90%, nilai minconf 90% dan nilai lift 1.04. Aturan-aturan asosiasi yang dihasilkan dengan kombinasi nilai batasan tersebut adalah sebagai berikut:
Kesimpulan Dari berbagai percobaan yang dilakukan terhadap data PODES 2003 didapat kesimpulan sebagai berikut: 1. Sebagian besar aturan asosiasi memiliki nilai fuzzy confidence yang tinggi karena nilai fuzzy support gabungan antecedent dengan consequent-nya juga tinggi. 2. Parameter yang paling mempengaruhi jumlah aturan asosiasi yang dihasilkan adalah nilai minsup. 3. Aturan-aturan asosiasi yang dihasilkan pada nilai minsup 90%, nilai minconf 90% dan nilai lift 1.04 adalah sebagai berikut: • Jika jumlah keluarga pengguna listrik PLN sedikit maka jumlah bangunan permanen sedikit • Jika jumlah bangunan permanen sedikit maka jumlah keluarga pengguna listrik PLN sedikit Aturan asosiasi tersebut tampak biimplikasi karena walaupun antecedent dan consequent-nya dibalik, nilai fuzzy confidence-nya tetap tinggi.
10 4.
Aturan-aturan asosiasi yang dihasilkan pada nilai minsup 90%, nilai minconf 90% dan nilai mincorr 0.8 adalah sebagai berikut: • Jika jumlah pengangguran sedikit maka jumlah murid SD yang DO sedikit • Jika jumlah keluarga pengguna listrik PLN sedikit maka jumlah bangunan permanen sedikit • Jika jumlah keluarga pengguna listrik PLN sedikit maka jumlah murid SD yang DO sedikit • Jika jumlah bangunan permanen sedikit maka jumlah keluarga pengguna listrik PLN sedikit • Jika jumlah bangunan permanen sedikit maka jumlah murid SD yang DO sedikit Saran Pada penelitian ini, digunakan algoritma FCM pada proses pembentukan himpunan fuzzy, pada penelitian berikutnya dapat digunakan algoritma selain FCM, misalnya Fuzzy Substractive Clustering dan Fuzzy Adaptive Clustering.
DAFTAR PUSTAKA Connolly TM, Begg CE. 2002. Database System: A Practical Approach to Design, Implementation, and Management. Third Edition. Harlow, England: AddisonWesley. Gyenesei A. 2000. A Fuzzy Approach for Mining Quantitative Association Rules. Turku Centre for Computer Science [TUCS] Technical Reports No. 336. http://citeseer.ist.psu.edu/cache/papers/cs /19318/http:zSzzSzwww.tucs.fizSzpublic ationszSztechreportszSzTR336.pdf/gyen esei00fuzzy.pdf [12 Desember 2005]. Halkidi M, Batistakis Y, Vazirgiannis M. Clustering Validity Checking Methods: Part II. www.dbnet.aueb.gr/mhalk/papers/ PARTII_clvalidity.pdf [31 Mei 2006] Han J, Kamber M. 2001. Data Mining: Concepts and Techniques. San Diego, USA: Morgan-Kaufmann. Kuok CM, Fu A, Wong MH. 1998. Mining Fuzzy Association Rules in Databases. SIGMOD Record, 27(1):41-46. www.cs.wpi.edu/~ifc/disc/disc99/disc/re cord/issues/9803/kuok.pdf [29 Mei 2005].
Tan PN, Steinbach M, Kumar V. Introduction to Data Mining. 2006. Boston, USA: Pearson Educations. Wang LX. 1997. A Course in Fuzzy Systems and Control. New Jersey, USA: Prentice-Hall International, Inc. Xie XL, Beni G. 1991. A Validity Measure for Fuzzy Clustering. IEEE Trans on Pattern Anal Machine Intell, 13(8):841847.
11
LAMPIRAN
12 Lampiran 1 Diagram alir proses dasar sistem
13 Lampiran 2 Contoh data PODES 2003 di pulau Jawa ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
V403A1 130 315 201 175 130 230 90 72 22 105 139 101 381 1116 769 663 1180 912 295 124 210 330 181 543 98 89 97 177 105 163 41 137 208 149 121 112 242 3 9 0
V406 14 5 12 11 15 25 734 264 343 394 400 1974 552 888 0 452 808 900 725 322 225 726 225 315 0 0 0 0 0 748 475 525 560 465 657 0 0 60 490 0
V501B1 0 0 0 0 0 0 4850 9690 5765 9683 9998 6306 6990 7798 9998 5427 5225 8434 8329 6360 7918 9998 4393 7134 6772 3141 5453 3440 5415 1198 5972 1143 7065 5737 6700 738 517 255 4744 1004
V507A 461 141 164 187 64 356 1420 6705 5243 4132 4930 4104 3783 1678 2835 2278 1038 1679 4968 3091 4332 5281 1892 3152 12814 4055 4492 5145 5910 7300 3925 5123 3363 2820 2256 4492 1218 1940 1757 863
V603 13 8 5 5 12 15 0 0 0 0 0 0 30 25 27 20 20 18 17 0 0 0 3 0 0 0 0 0 0 138 0 0 0 0 0 0 0 0 0 0
14 Lampiran 3 Hasil validasi cluster Atribut V403A1 (Jumlah Keluarga Prasejahtera Sejahtera I) Jml cluster 2 3 4 5 6 7 8 9 10
Compactness 5.4015e+004 2.7390e+004 1.6881e+004 1.1677e+004 8.7457e+003 6.6617e+003 5.2930e+003 4.3617e+003 3.6884e+003
Separation 5.0803e+005 1.9122e+005 1.0093e+005 6.3073e+004 4.6852e+004 3.4556e+004 2.6316e+004 2.1106e+004 1.6835e+004
S 0.1063 0.1432 0.1672 0.1851 0.1867 0.1928 0.2011 0.2067 0.2191
Atribut V406 (Jumlah Pengangguran) Jml cluster 2 3 4 5 6 7 8 9 10
Compactness 6.7955e+004 3.4369e+004 1.9390e+004 1.2507e+004 8.6523e+003 6.4279e+003 4.9861e+003 4.0360e+003 3.0706e+003
Separation 2.1992e+006 4.6369e+005 1.8191e+005 8.1446e+004 5.2938e+004 2.6746e+004 2.0678e+004 1.1411e+004 8.3626e+003
S 0.0309 0.0741 0.1066 0.1536 0.1634 0.2403 0.2411 0.3537 0.3672
Atribut V501B1 (Jumlah Keluarga Pengguna Listrik PLN) Jml cluster 2 3 4 5 6 7 8 9 10
Compactness 3.5218e+005 1.5879e+005 8.8204e+004 5.6139e+004 3.7595e+004 2.7167e+004 2.1083e+004 1.6378e+004 1.3023e+004
Separation 1.0515e+007 1.6494e+006 5.8306e+005 3.2342e+005 2.3773e+005 1.5039e+005 1.0103e+005 7.7829e+004 6.4092e+004
S 0.0335 0.0963 0.1513 0.1736 0.1581 0.1806 0.2087 0.2104 0.2032
Atribut V507A (Jumlah Bangunan Rumah Permanen) Jml cluster 2 3 4 5 6 7 8 9 10
Compactness 4.6858e+005 2.6489e+005 1.7261e+005 1.2481e+005 9.6499e+004 7.8309e+004 6.5113e+004 5.5961e+004 4.9126e+004
Separation 6.2888e+006 1.1718e+006 5.3119e+005 3.1078e+005 2.3444e+005 1.4359e+005 1.1115e+005 7.8519e+004 6.1648e+004
S 0.0745 0.2261 0.3249 0.4016 0.4116 0.5454 0.5858 0.7127 0.7969
Atribut V603 (Jumlah Murid SD yang Drop-Out) Jml cluster 2 3 4 5 6 7 8 9 10
Compactness 1.0846e+003 477.4810 271.4243 170.1130 118.2785 85.1192 64.3235 52.6504 45.9896
Separation 1.0147e+005 1.3242e+004 3.6798e+003 1.7523e+003 861.4638 411.6342 299.6008 202.4035 127.4734
S 0.0107 0.0361 0.0738 0.0971 0.1373 0.2068 0.2147 0.2601 0.3608
15 Lampiran 4 Hasil transformasi data PODES ke dalam bentuk fuzzy ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
V403A1, banyak 0.040039 8.54E-06 0.018086 0.025613 0.040039 0.010744 0.053712 0.05999 0.077505 0.048527 0.037049 0.049904 0.011028 0.98751 0.759446 0.482321 0.969298 0.965242 0.000601 0.042054 0.015672 0.000602 0.023811 0.185143 0.05094 0.05406 0.051286 0.025009 0.048527 0.029316 0.070857 0.03771 0.016199 0.033781 0.043067 0.046127 0.008124 0.084114 0.082032 0.085152
V403A1, sedikit 0.959961 0.999991 0.981914 0.974387 0.959961 0.989256 0.946288 0.94001 0.922495 0.951473 0.962951 0.950096 0.988972 0.01249 0.240554 0.517679 0.030702 0.034758 0.999399 0.957946 0.984328 0.999398 0.976189 0.814857 0.94906 0.94594 0.948714 0.974991 0.951473 0.970684 0.929143 0.96229 0.983801 0.966219 0.956933 0.953873 0.991876 0.915886 0.917968 0.914848
V406, banyak 0.006611 0.007456 0.006796 0.006888 0.00652 0.005635 0.301831 0.007455 0.023001 0.038861 0.041067 0.965557 0.124634 0.501062 0.007942 0.063448 0.394375 0.51724 0.291224 0.017872 0.003179 0.292395 0.003179 0.016331 0.007942 0.007942 0.007942 0.007942 0.007942 0.318644 0.075321 0.105615 0.130636 0.070004 0.216821 0.007942 0.007942 0.002978 0.083753 0.007942
V406, sedikit 0.993389 0.992544 0.993204 0.993112 0.99348 0.994365 0.698169 0.992545 0.976999 0.961139 0.958933 0.034443 0.875366 0.498938 0.992058 0.936552 0.605625 0.48276 0.708776 0.982128 0.996821 0.707605 0.996821 0.983669 0.992058 0.992058 0.992058 0.992058 0.992058 0.681356 0.924679 0.894385 0.869364 0.929996 0.783179 0.992058 0.992058 0.997022 0.916247 0.992058
V501B1, sedikit 0.973588 0.973588 0.973588 0.973588 0.973588 0.973588 0.050195 0.291687 0.118909 0.291509 0.299268 0.154678 0.193229 0.23032 0.299268 0.094314 0.078995 0.254312 0.250622 0.157988 0.235162 0.299268 0.018193 0.20046 0.181718 0.08067 0.096258 0.024307 0.093415 0.958484 0.13315 0.9673 0.197031 0.116932 0.177761 0.999017 0.998679 0.988893 0.042237 0.984205
V501B1, banyak 0.026412 0.026412 0.026412 0.026412 0.026412 0.026412 0.949805 0.708313 0.881091 0.708491 0.700732 0.845322 0.806771 0.76968 0.700732 0.905686 0.921005 0.745688 0.749378 0.842012 0.764838 0.700732 0.981807 0.79954 0.818282 0.91933 0.903742 0.975693 0.906585 0.041516 0.86685 0.0327 0.802969 0.883068 0.822239 0.000983 0.001321 0.011107 0.957763 0.015795
V507A, sedikit 0.999763 0.984545 0.986218 0.987824 0.978518 0.997052 0.74877 0.262005 0.181722 0.087418 0.158435 0.084669 0.052798 0.560444 0.005457 0.144261 0.930638 0.559655 0.1614 0.001027 0.106665 0.184377 0.391311 0.002942 0.388068 0.079832 0.121433 0.174705 0.223465 0.284906 0.066903 0.173096 0.015149 0.006521 0.154982 0.121433 0.861461 0.354905 0.497662 0.972186
V507A, banyak 0.000237 0.015455 0.013782 0.012176 0.021482 0.002948 0.25123 0.737995 0.818278 0.912582 0.841565 0.915331 0.947202 0.439556 0.994543 0.855739 0.069362 0.440345 0.8386 0.998973 0.893335 0.815623 0.608689 0.997058 0.611932 0.920168 0.878567 0.825295 0.776535 0.715094 0.933097 0.826904 0.984851 0.993479 0.845018 0.878567 0.138539 0.645095 0.502338 0.027814
V603, sedikit 0.998503 0.999749 0.999382 0.999382 0.999988 0.999965 0.998437 0.998437 0.998437 0.998437 0.998437 0.998437 0.99688 0.998502 0.99793 0.999513 0.999513 0.999758 0.999848 0.998437 0.998437 0.998437 0.999052 0.998437 0.998437 0.998437 0.998437 0.998437 0.998437 0.706346 0.998437 0.998437 0.998437 0.998437 0.998437 0.998437 0.998437 0.998437 0.998437 0.998437
V603, banyak 1.5E-07 0.000251 0.000618 0.000618 1.24E-05 3.51E-05 0.001563 0.001563 0.001563 0.001563 0.001563 0.001563 0.00312 0.001498 0.00207 0.000487 0.000487 0.000242 0.000152 0.001563 0.001563 0.001563 0.000948 0.001563 0.001563 0.001563 0.001563 0.001563 0.001563 0.293654 0.001563 0.001563 0.001563 0.001563 0.001563 0.001563 0.001563 0.001563 0.001563 0.001563
16 Lampiran 5 Hasil pembentukan frequent itemset pada nilai minsup 50% Frequent 1-Itemset No Itemset 1 (V403A1, sedikit) 2 (V406, sedikit) 3 (V501B1, sedikit) 4 (V507A, sedikit) 5 (V603, sedikit)
Fuzzy Support 0.698515164 0.92823345 0.914338888 0.901117436 0.969491512
Frequent 2-Itemset No Itemset 1 (V403A1, sedikit), (V406, sedikit) 2 (V403A1, sedikit), (V501B1, sedikit) 3 (V403A1, sedikit), (V507A, sedikit) 4 (V403A1, sedikit), (V603, sedikit) 5 (V406, sedikit), (V501B1, sedikit) 6 (V406, sedikit), (V507A, sedikit) 7 (V406, sedikit), (V603, sedikit) 8 (V501B1, sedikit), (V507A, sedikit) 9 (V501B1, sedikit), (V603, sedikit) 10 (V507A, sedikit), (V603, sedikit)
Fuzzy Support 0.665432338 0.660032356 0.652435873 0.684011458 0.866217139 0.852585714 0.904765449 0.869889093 0.890155129 0.877299199
Frequent 3-Itemset No Itemset 1 (V403A1, sedikit), (V406, sedikit), (V501B1, sedikit) 2 (V403A1, sedikit), (V406, sedikit), (V507A, sedikit) 3 (V403A1, sedikit), (V406, sedikit), (V603, sedikit) 4 (V403A1, sedikit), (V501B1, sedikit), (V507A, sedikit) 5 (V403A1, sedikit), (V501B1, sedikit), (V603, sedikit) 6 (V403A1, sedikit), (V507A, sedikit), (V603, sedikit) 7 (V406, sedikit), (V501B1, sedikit), (V507A, sedikit) 8 (V406, sedikit), (V501B1, sedikit), (V603, sedikit) 9 (V406, sedikit), (V507A, sedikit), (V603, sedikit) 10 (V501B1, sedikit), (V507A, sedikit), (V603, sedikit)
Fuzzy Support 0.635281531 0.627876979 0.65314295 0.637093594 0.647305421 0.639934216 0.827878368 0.845694752 0.832515391 0.847868924
Frequent 4-Itemset No Itemset 1 (V403A1, sedikit), (V406, sedikit), (V501B1, sedikit), (V507A, sedikit) 2 (V403A1, sedikit), (V406, sedikit), (V501B1, sedikit), (V603, sedikit) 3 (V403A1, sedikit), (V406, sedikit), (V501B1, sedikit), (V603, sedikit) 4 (V403A1, sedikit), (V501B1, sedikit), (V507A, sedikit), (V603, sedikit) 5 (V406, sedikit), (V501B1, sedikit), (V507A, sedikit), (V603, sedikit) Frequent 5-Itemset No Itemset 1 (V403A1, sedikit), (V406, sedikit), (V501B1, sedikit), (V507A, sedikit), (V603, sedikit)
Fuzzy Support 0.614790801 0.623936063 0.616774641 0.625201638 0.80890572
Fuzzy Support 0.610811782
17 Lampiran 6 Jumlah aturan aturan asosiasi yang dihasilkan dari berbagai kombinasi minsup dan minconf dan dievaluasi dengan lift minsup (%) 50
minconf (%) 50
50
60
50
70
50
80
50
90
60
50
60
60
60
70
60
80
60
90
lift 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1
Jml aturan 135 94 50 14 4 135 94 50 14 4 112 77 41 10 4 82 54 30 6 2 69 45 24 5 2 135 94 50 14 4 135 94 50 14 4 112 77 41 10 4 82 54 30 6 2 69 45 24 5 2
minsup (%) 70
minconf (%) 50
70
60
70
70
70
80
70
90
80
50
80
60
80
70
80
80
80
90
lift 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1
Jml aturan 34 18 12 0 0 34 18 12 0 0 34 18 12 0 0 34 18 12 0 0 28 16 10 0 0 34 18 12 0 0 34 18 12 0 0 34 18 12 0 0 34 18 12 0 0 28 16 10 0 0
18 Lampiran 6 lanjutan minsup (%) 90
minconf (%) 50
90
60
90
70
90
80
90
90
lift 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1 1.02 1.04 1.06 1.08 1.1
Jml aturan 8 2 0 0 0 8 2 0 0 0 8 2 0 0 0 8 2 0 0 0 8 2 0 0 0
19 Lampiran 7 Jumlah aturan aturan asosiasi yang dihasilkan dari berbagai kombinasi minsup dan minconf dan dievaluasi dengan fuzzy correlation minsup (%) 50
minconf (%) 50
50
60
50
70
50
80
50
90
60
50
mincorr 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Jml aturan 144 126 110 99 95 86 77 66 41 144 126 110 99 95 86 77 66 41 131 123 110 99 95 86 77 66 41 103 100 96 95 95 86 77 66 41 88 87 86 85 85 83 75 64 41 144 126 110 99 95 86 77 66 41
minsup (%) 60
minconf (%) 60
60
70
60
80
60
90
70
50
70
60
mincorr 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Jml aturan 144 126 110 99 95 86 77 66 41 131 123 110 99 95 86 77 66 41 103 100 96 95 95 86 77 66 41 88 87 86 85 85 83 75 64 41 48 45 41 40 40 36 30 19 7 48 45 41 40 40 36 30 19 7
20 Lampiran 7 lanjutan minsup (%) 70
minconf (%) 70
70
80
90
80
50
80
60
80
70
mincorr 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Jml aturan 48 45 41 40 40 36 30 19 7 48 45 41 40 40 36 30 19 7 40 39 38 37 37 35 30 19 7 48 45 41 40 40 36 30 19 7 48 45 41 40 40 36 30 19 7 48 45 41 40 40 36 30 19 7
minsup (%) 80
minconf (%) 80
80
90
90
50
90
60
90
70
90
80
mincorr 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Jml aturan 48 45 41 40 40 36 30 19 7 40 39 38 37 37 35 30 19 7 16 15 14 13 13 12 8 5 0 16 15 14 13 13 12 8 5 0 16 15 14 13 13 12 8 5 0 16 15 14 13 13 12 8 5 0
21 Lampiran 7 lanjutan minsup (%) 90
minconf (%) 90
mincorr 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
Jml aturan 16 15 14 13 13 12 8 5 0