PENERAPAN TEKNIK KLASIFIKASI MENGGUNAKAN METODE FUZZY DECISION TREE DENGAN ALGORITMA ID3 PADA DATA DIABETES
FIRAT ROMANSYAH G64103006
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2007
PENERAPAN TEKNIK KLASIFIKASI MENGGUNAKAN METODE FUZZY DECISION TREE DENGAN ALGORITMA ID3 PADA DATA DIABETES
Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Oleh : FIRAT ROMANSYAH G64103006
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2007
ABSTRAK FIRAT ROMANSYAH. Penerapan Teknik Klasifikasi Menggunakan Metode Fuzzy Decision Tree dengan Algoritma ID3 pada Data Diabetes. Dibimbing oleh IMAS S. SITANGGANG dan SRI NURDIATI. Teknologi pengumpulan dan penyimpanan data telah memudahkan suatu organisasi untuk mengumpulkan data berukuran besar, salah satu contohnya adalah basis data untuk sebuah rumah sakit. Data yang dikumpulkan oleh rumah sakit sangat banyak dan bervariasi, termasuk juga data pasien yang berkaitan dengan penyakit diabetes, akan tetapi data tersebut banyak yang belum dimanfaatkan secara optimal. Diperlukan suatu sistem data mining yang bisa memanfaatkan data tersebut menjadi suatu informasi yang berguna. Dalam penelitian ini dipelajari bagaimana data bisa digunakan untuk membantu mengetahui potensi suatu penyakit, khususnya penyakit diabetes. Salah satu teknik data mining yang dapat digunakan untuk mengetahui label kelas dari suatu record dalam data adalah klasifikasi. Decision tree adalah salah satu metode yang umum digunakan untuk melakukan klasifikasi. Untuk menangani ketidakpastian dan ketidaktepatan, pendekatan fuzzy digunakan. Pada penelitian ini dilakukan salah satu teknik data mining yaitu klasifikasi menggunakan metode fuzzy decision tree pada data diabetes agar diperoleh suatu aturan klasifikasi yang dapat dipergunakan untuk mengetahui label kelas data yang baru. Algoritma sederhana untuk membangun sebuah fuzzy decision tree dengan akurasi yang cukup tinggi adalah fuzzy ID3 (fuzzy Iterative Dichotomiser 3). Dari penelitian yang telah dilakukan jumlah aturan yang diperoleh adalah 30 buah aturan dengan akurasi 90.69%, pada nilai fuzziness control threshold sebesar 98% dan leaf decision threshold sebesar 3%. Aturan klasifikasi yang mengandung kelas target negatif diabetes sebanyak 29 aturan, sedangkan untuk kelas target positif diabetes sebanyak 1 aturan. Klasifikasi dengan 30 aturan tersebut dapat digunakan untuk mengetahui potensi seseorang terserang diabetes. Kata kunci : Data mining, teknik klasifikasi, Decision tree, Fuzzy ID3
Judul : Penerapan Teknik Klasifikasi Menggunakan Metode Fuzzy Decision Tree dengan Algoritma ID3 pada Data Diabetes Nama : Firat Romansyah NRP : G64103006
Menyetujui: Pembimbing I,
Pembimbing II
Imas S. Sitanggang, S.Si., M.Kom. NIP 132 206 235
Dr. Ir. Sri Nurdiati, M.Sc. NIP 131 578 805
Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Prof. Dr. Ir. Yonny Koesmaryono, MS NIP 131 473 999
Tanggal Lulus:
RIWAYAT HIDUP Penulis dilahirkan di Mataram pada tanggal 29 Mei 1985 sebagai anak ke tiga dari lima bersaudara dari pasangan Abdul Husein dan Ida Risnani. Penulis menyelesaikan pendidikan menengah atas di SMUN 1 Sumbawa Besar dan lulus pada tahun 2003. Pada tahun yang sama penulis diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Penulis diterima melalui jalur Undangan Seleksi Masuk IPB (USMI). Penulis pernah melaksanakan praktek lapang selama dua bulan di Hotel Salak The Heritage. Tugas yang diberikan pada praktek lapang tersebut berkaitan dengan perancangan dan implementasi Sistem Inventori Hotel Salak The Heritage.
PRAKATA Puji dan syukur penulis panjatkan kepada Allah SWT atas limpahan nikmat dan hidayahNya sehingga penulis dapat menyelesaikan karya ilmiah ini. Sholawat dan salam semoga senantiasa tercurah kepada nabi besar Muhammad SAW, keluarganya, para sahabat, serta para pengikutnya yang tetap istiqomah mengemban risalah-Nya. Melalui lembar ini, penulis ingin menyampaikan penghargaan dan terima kasih kepada semua pihak atas bantuan, dorongan, saran, kritik, serta koreksi selama penulisan karya ilmiah ini. Ucapan terima kasih penulis ucapkan kepada: 1. Ibu, Abah, ka’ Maya, ka’ Rian, Robi, ade’ Mala, dan seluruh keluargaku atas doa, kasih sayang, dan pengorbanan yang telah diberikan selama ini. 2. Ibu Imas S. Sitanggang, S.Si., M.Kom. selaku pembimbing I, Ibu Dr. Ir. Sri Nurdiati, M.Sc. selaku pembimbing II dan Bapak Hari Agung A., S.Kom. selaku dosen penguji. 3. Pandi, Meynar, dan Arum yang telah bersedia menjadi pembahas. 4. Ratih sebagai teman senasib seperjuangan dalam melakukan penelitian dan Sofi yang banyak membantu peneliti di awal-awal penelitian. 5. Bapak Herwanto yang telah bersedia memberikan data sebagai bahan penelitian. 6. Meynar selaku “Emak” yang selalu memberi dukungan pada peneliti selama di IPB. 7. Jemi, Pandi, PIS, Dhiku, dan anggota “Geng Cinta” lainnya yang telah banyak memberi inspirasi dan kegembiraan pada peneliti. 8. Gibtha sekeluarga atas dukungan dan bantuannya pada peneliti selama di IPB. 9. Yayan yang telah meminjamkan installer Matlab 7.0. 10. Seluruh staf pengajar yang telah memberikan bekal ilmu dan wawasan selama penulis menuntut ilmu di Departemen Ilmu Komputer. 11. Seluruh staf administrasi dan perpustakaan Departemen Ilmu Komputer atas bantuannya. 12. Rekan-rekan Departemen Ilmu Komputer angkatan 40. Sebagaimana manusia yang tidak luput dari kesalahan, penulis menyadari bahwa karya ilmiah ini jauh dari sempurna. Namun penulis berharap semoga karya ilmiah ini dapat bermanfaat bagi siapapun yang membacanya.
Bogor, Mei 2007
Firat Romansyah
v
DAFTAR ISI Halaman DAFTAR TABEL............................................................................................................................vi DAFTAR GAMBAR .......................................................................................................................vi DAFTAR LAMPIRAN....................................................................................................................vi PENDAHULUAN ............................................................................................................................ 1 Latar Belakang ..............................................................................................................................1 Tujuan Penelitian ..........................................................................................................................1 Ruang Lingkup Penelitian .............................................................................................................1 Manfaat Penelitian.........................................................................................................................1 TINJAUAN PUSTAKA.................................................................................................................... 1 Knowledge Data Discovery (KDD) ..............................................................................................1 Data Mining ..................................................................................................................................2 Klasifikasi .....................................................................................................................................2 Himpunan Fuzzy............................................................................................................................2 Linguistic Variable (Peubah Linguistik) .......................................................................................3 Linguistic Term .............................................................................................................................3 Fuzzy Decision Tree (FDT)...........................................................................................................3 Fuzzy ID3 Decision Tree...............................................................................................................4 Fuzzy Entropy dan Information Gain ............................................................................................4 Threshold ......................................................................................................................................5 K-fold Cross Validation ................................................................................................................5 Sistem Inferensi Fuzzy ..................................................................................................................5 METODE PENELITIAN.................................................................................................................. 5 Lingkungan Pengembangan ..........................................................................................................6 HASIL DAN PEMBAHASAN......................................................................................................... 6 Pembersihan Data..........................................................................................................................7 Transformasi Data .........................................................................................................................7 Data Mining ..................................................................................................................................9 Training.....................................................................................................................................9 Testing.....................................................................................................................................12 Representasi Pengetahuan ...........................................................................................................13 Evaluasi Kinerja FID3.................................................................................................................13 KESIMPULAN DAN SARAN....................................................................................................... 14 Kesimpulan .................................................................................................................................14 Saran............................................................................................................................................14 DAFTAR PUSTAKA ..................................................................................................................... 14 LAMPIRAN.................................................................................................................................... 16
vi
DAFTAR TABEL Halaman 1 Nilai referensi hasil laboratorium...................................................................................................7 2 Aturan klasifikasi contoh training set ..........................................................................................10 3 Rata-rata jumlah aturan ................................................................................................................11 4 Rata-rata waktu eksekusi dalam satuan detik...............................................................................11 5 Model untuk training set pertama dengan θr (75%) dan θn (3%) .................................................12 6 Model untuk training set pertama dengan θr (85%) dan θn (3%) .................................................12 7 Evaluasi kinerja FID3...................................................................................................................13
DAFTAR GAMBAR Halaman 1 Tahapan proses KDD (Han & Kamber 2001) ................................................................................2 2 Diagram alur proses klasifikasi ......................................................................................................6 3 Himpunan fuzzy atribut GLUN ......................................................................................................7 4 Himpunan fuzzy atribut GPOST .....................................................................................................8 5 Himpunan fuzzy atribut HDL .........................................................................................................8 6 Himpunan fuzzy atribut TG ............................................................................................................8 7 Hasil ekspansi training set berdasarkan atribut GPOST ................................................................9 8 Fuzzy decision tree untuk contoh training set.............................................................................10 9 Perbandingan rata-rata jumlah aturan...........................................................................................11 10 Perbandingan rata-rata waktu eksekusi proses training .............................................................12 11 Evaluasi kinerja FID3.................................................................................................................14 12 Antarmuka grafis aplikasi untuk proses training .......................................................................14
DAFTAR LAMPIRAN Halaman 1 Contoh data hasil proses pembersihan data..................................................................................17 2 Contoh data hasil fuzzifikasi pada proses transformasi data ........................................................18 3 Contoh data untuk proses training ...............................................................................................19 4 Jumlah aturan yang dihasilkan oleh masing-masing training set.................................................20 5 Waktu eksekusi algoritma FID3 untuk masing-masing training set dalam satuan detik..............21 6 Akurasi aturan setelah pengujian dengan menggunakan test set..................................................22
1
PENDAHULUAN Latar Belakang Organisasi Kesehatan Dunia (WHO) memperkirakan, bahwa 177 juta penduduk dunia mengidap penyakit diabetes melitus atau biasa disingkat diabetes. Jumlah ini akan terus meningkat hingga melebihi 300 juta pada tahun 2025. Dr Paul Zimmet, direktur dari International Diabetes Institute (IDI) di Victoria, Australia, meramalkan bahwa diabetes akan menjadi epidemi yang paling dahsyat dalam sejarah manusia. Hasil survey Organisasi Kesehatan Dunia (WHO) juga menyatakan bahwa jumlah penderita kencing manis (diabetes mellitus) di Indonesia sekitar 17 juta orang (8,6% dari jumlah penduduk) atau menduduki urutan terbesar ke-4 setelah India, Cina dan Amerika Serikat. Perkembangan yang cepat dalam teknologi pengumpulan dan penyimpanan data telah memudahkan suatu organisasi untuk mengumpulkan sejumlah data berukuran besar. Kondisi ini terjadi pada sebuah rumah sakit yang mempunyai beribu-ribu record data pasien dan jenis penyakitnya, misalnya kumpulan data diabetes yang terkait dengan hasil pemeriksaan laboratorium dari pasien rumah sakit. Data berukuran besar tersebut seringkali dibiarkan menggunung tanpa digunakan secara maksimal. Hal ini disebabkan keterbatasan pengguna komputer untuk mengolah data tersebut menjadi sebuah informasi yang berguna. Padahal jika dianalisis lebih dalam akan menghasilkan informasi atau pengetahuan yang penting dan berharga sebagai penunjang pengambilan keputusan. Data mining merupakan proses ekstraksi informasi atau pola penting dalam basis data berukuran besar (Han & Kamber 2001). Pada penelitian ini akan diterapkan salah satu teknik dalam data mining, yaitu klasifikasi terhadap data diabetes. Klasifikasi merupakan salah satu metode dalam data mining untuk mengetahui label kelas dari suatu record dalam data. Metode yang digunakan dalam penelitian ini yaitu metode klasifikasi dengan fuzzy decision tree. Penggunaan teknik fuzzy memungkinkan dilakukan penentuan suatu objek yang dimiliki oleh lebih dari satu kelas. Dengan menerapkan teknik data mining pada data diabetes diharapkan dapat ditemukan aturan klasifikasi yang dapat digunakan untuk mengetahui potensi seseorang terserang penyakit diabetes.
Tujuan Penelitian Tujuan dari penelitian ini adalah : 1. Menerapkan salah satu teknik data mining yaitu klasifikasi menggunakan metode fuzzy decision tree. 2. Menemukan aturan klasifikasi pada data diabetes yang menjelaskan dan membedakan kelas-kelas atau konsep sehingga dapat digunakan untuk mengetahui potensi penyakit diabetes berdasarkan nilai dari atribut lain yang diketahui. 3. Membangun aplikasi sederhana untuk membuat model atau aturan-aturan klasifikasi. Ruang Lingkup Penelitian Ruang lingkup penelitian dibatasi pada: 1. Membangun sebuah model untuk mengetahui potensi pasien terserang diabetes menggunakan data pemeriksaan lab pasien dari sebuah rumah sakit yang meliputi pemeriksaan GLUN (Glukosa Darah Puasa), GPOST (Glukosa Darah 2 Jam Pasca Puasa), Tg (Trigliserida), HDL (Kolesterol HDL), serta diagnosa pasien berdasarkan nilai GLUN, GPOST, HDL, dan TG. 2. Teknik yang digunakan adalah salah satu teknik dalam data mining yaitu teknik klasifikasi dengan menggunakan metode decision tree. Untuk menangani ketidakpastian dan ketidaktepatan, pendekatan fuzzy digunakan. 3. Penelitian dilakukan dengan mengimplementasikan salah satu teknik fuzzy decision tree yaitu Fuzzy ID3 (Iterative Dichotomiser 3) Decision Tree pada data hasil pemeriksaan lab pasien. Manfaat Penelitian Model yang dihasilkan pada penelitian ini diharapkan dapat digunakan oleh pihak yang berkepentingan untuk mengetahui potensi seseorang atau pasien terserang penyakit diabetes, sehingga terjadinya penyakit ini pada seseorang dapat diketahui sedini mungkin dan dapat dilakukan tindakan antisipasi.
TINJAUAN PUSTAKA Knowledge Data Discovery (KDD) Knowledge discovery in databases (KDD) adalah proses menemukan informasi yang berguna dan pola-pola yang ada dalam data (Goharian & Grossmann 2003). KDD
2
merupakan sebuah proses yang terdiri dari serangkaian proses iteratif yang terurut dan data mining merupakan salah satu langkah dalam KDD (Han & Kamber 2001). Pada Gambar 1 dapat dilihat tahapan proses KDD secara berurut. Tahapan proses KDD menurut Han & Kamber (2001), yaitu : 1. Pembersihan data Pembersihan terhadap data dilakukan untuk menghilangkan data yang tidak konsisten atau data yang mengandung noise. 2. Integrasi data Proses integrasi data dilakukan untuk menggabungkan data dari berbagai sumber. 3. Seleksi data Proses seleksi data mengambil data yang relevan digunakan untuk proses analisis. 4. Transformasi data Proses mentransformasikan atau menggabungkan data ke dalam bentuk yang tepat untuk dimining. 5. Data mining Data mining merupakan proses yang penting dimana metode-metode cerdas diaplikasikan untuk mengekstrak pola-pola dalam data. 6. Evaluasi pola Evaluasi pola diperlukan untuk mengidentifikasi beberapa pola-pola yang menarik yang merepresentasikan pengetahuan. 7. Presentasi pengetahuan Penggunaan visualisasi dan teknik representasi untuk menunjukkan pengetahuan hasil peggalian gunung data kepada pengguna. Pattern Evaluation Data mining Task-relevant
Data Data Warehouse Data Cleaning
Selection and Transformation
Data Integration Databases
Gambar 1 Tahapan proses KDD (Han & Kamber 2001) Data Mining Data mining merupakan proses ekstraksi informasi data berukuran besar (Han dan Kamber 2001). Data mining merupakan
keseluruhan proses mengaplikasikan komputer dan bermacam-macam teknik untuk menemukan informasi dari sekumpulan data. Dari sudut pandang analisis data, data mining dapat diklasifikasi menjadi dua kategori, yaitu descriptive data mining dan predictive data mining. Descriptive data mining menjelaskan sekumpulan data dalam cara yang lebih ringkas. Ringkasan tersebut menjelaskan sifatsifat yang menarik dari data. Predictive data mining menganalisis data dengan tujuan mengkonstruksi satu atau sekumpulan model dan melakukan prediksi perilaku dari kumpulan data yang baru. Aplikasi data mining telah banyak diterapkan pada berbagai bidang, seperti analisis pasar dan manajemen, analisis perusahaan dan manajemen resiko, telekomunikasi, asuransi dan keuangan. Klasifikasi Klasifikasi adalah proses menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat digunakan untuk mengetahui kelas atau objek yang memiliki label kelas yang tidak diketahui. Klasifikasi termasuk ke dalam kategori predictive data mining. Model yang diturunkan didasarkan pada analisis dari training data. Teknik klasifikasi adalah pendekatan sistematis untuk pembuatan model klasifikasi (classifier) dari sebuah data set input. Proses klasifikasi dibagi menjadi dua fase, yaitu learning dan testing (Han & Kamber 2001). Pada fase learning, sebagian data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase testing, model yang sudah terbentuk diuji dengan sebagian data lainnya (test set) untuk mengetahui akurasi dari model tersebut. Jika akurasinya mencukupi maka model tersebut dapat dipakai untuk prediksi kelas data yang belum diketahui. Himpunan Fuzzy Konsep logika fuzzy pertama kali diperkenalkan oleh Prof. Lotfi A. Zadeh dari Universitas California pada bulan Juni 1965. Logika fuzzy merupakan generalisasi dari logika klasik yang hanya memiliki dua nilai keanggotaan 0 dan 1. Dalam logika fuzzy nilai kebenaran suatu pernyataan berkisar dari sepenuhnya benar ke sepenuhnya salah. Inti dari himpunan fuzzy yaitu fungsi keanggotaan yang menggambarkan hubungan antara
3
domain himpunan fuzzy dengan nilai derajat keanggotaan. Dengan teori himpunan fuzzy suatu objek dapat menjadi anggota dari banyak himpunan dengan derajat keanggotaan yang berbeda dalam masing-masing himpunan. Derajat keanggotaan menunjukkan nilai keanggotaan suatu objek pada suatu himpunan. Nilai keanggotaan ini berkisar antara 0 sampai 1 (Cox 2005). Linguistic Variable (Peubah Linguistik) Linguistic variable merupakan peubah verbal yang dapat digunakan untuk memodelkan pemikiran manusia yang diekspresikan dalam bentuk himpunan fuzzy. Peubah linguistik dikarakterisasi oleh quintaple (x, T(x), X, G, M) dengan x adalah nama peubah, T(x) adalah kumpulan dari linguistic term, G adalah aturan sintaks, M adalah aturan semantik yang bersesuaian dengan setiap nilai peubah linguistik. Sebagai contoh, jika umur diinterpretasikan sebagai peubah linguistik, maka himpunan dari linguistic term T(umur) menjadi : T(umur) = {sangat muda, muda, tua} Setiap term dalam T(umur) dikarakterisasi oleh himpunan fuzzy, X menunjukkan nilai interval x. Aturan semantik menunjukkan fungsi keanggotaan dari setiap nilai pada himpunan linguistic term (Cox 2005). Linguistic Term Linguistic term didefinisikan sebagai kumpulan himpunan fuzzy yang didasarkan pada fungsi keanggotaan yang bersesuaian dengan peubah linguistik (Au & Chan 2001). Jika D kumpulan dari record yang terdiri dari kumpulan atribut I = {I 1 ,..., I n } , dengan I v , v = 1,..., n . Atribut I dapat berupa atribut numerik atau kategorikal. Untuk setiap record d elemen D, d [I v ] menotasikan nilai i dalam record d untuk atribut I v . Kumpulan linguistic term dapat didefinisikan pada seluruh domain dari atribut kuantitatif. L vr , r = 1,..., s v menotasikan linguistic term yang
I v , sehingga himpunan fuzzy dapat didefinisikan untuk setiap L vr . berasosiasi dengan atribut
Himpunan fuzzy, L vr , r = 1,..., s v didefinisikan sebagai :
⎧ ∑ dom( I ) µ Lvr (iv ) jika I diskret v v iv ⎪⎪ Lvr = ⎨ µ L (i ) ⎪∫ dom( I v ) vr v jika I v kontinu ⎪⎩ iv untuk
semua
dom( I v ) = {iv1 ,..., ivn }.
iv ∈ dom( I v ) ,
dengan
Derajat keanggotaan dari nilai iv ∈ dom( I v ) dengan beberapa linguistic term Lvr dinotasikan oleh µ Lvr . Fuzzy Decision Tree (FDT) Decision tree merupakan suatu pendekatan yang sangat populer dan praktis dalam machine learning untuk menyelesaikan permasalahan klasifikasi. Metode ini digunakan untuk memperkirakan nilai diskret dari fungsi target, yang mana fungsi pembelajaran direpresentasikan oleh sebuah decision tree (Liang 2005). Decision tree sama dengan satu himpunan aturan IF…THEN. Setiap path dalam tree dihubungkan dengan sebuah aturan, yang mana premis terdiri dari sekumpulan nodenode yang ditemui, dan kesimpulan dari aturan terdiri dari kelas yang terhubung dengan leaf dari path (Marsala 1998). Dalam pohon keputusan, leaf node diberikan sebuah label kelas. Non-terminal node, yang terdiri dari root dan internal node lainnya, mengandung kondisi-kondisi uji atribut untuk memisahkan record yang memiliki karakteristik yang berbeda. Edgeedge dapat dilabelkan dengan nilai-nilai numeric-symbolic. Sebuah atribut numericsymbolic adalah sebuah atribut yang dapat bernilai numeric ataupun symbolic yang dihubungkan dengan sebuah variabel kuantitatif. Sebagai contoh, ukuran seseorang dapat dituliskan sebagai atribut numericsymbolic: dengan nilai kuantitatif, dituliskan dengan “1,72 meter”, ataupun sebagai nilai numeric-symbolic seperti “tinggi” yang berkaitan dengan suatu ukuran (size). Nilainilai seperti inilah yang menyebabkan perluasan dari decision tree menjadi fuzzy decision tree (Yuan dan Shaw 1995). Penggunaan teknik fuzzy memungkinkan untuk mengetahui suatu objek yang dimiliki oleh lebih dari satu kelas. Fuzzy decision tree memungkinkan untuk menggunakan nilai-nilai numeric-symbolic selama konstruksi atau saat mengklasifikasikan kasus-kasus baru. Manfaat
4
dari teori himpunan fuzzy dalam decision tree ialah meningkatkan kemampuan dalam memahami decision tree ketika digunakan atribut-atribut kuantitatif. Bahkan, penggunaan teknik fuzzy dapat meningkatkan ketahanan saat melakukan klasifikasi kasuskasus baru (Marsala 1998). Fuzzy ID3 Decision Tree Algoritma ID3 (Iterative Dichotomiser 3) pertama kali diperkenalkan oleh Quinlan. Algoritma ini menggunakan teori informasi untuk menentukan atribut mana yang paling informatif, namun ID3 sangat tidak stabil dalam melakukan penggolongan berkenaan dengan gangguan kecil pada data pelatihan. Logika fuzzy dapat memberikan suatu peningkatan dalam melakukan penggolongan pada saat pelatihan (Liang 2005). Algoritma fuzzy ID3 merupakan algoritma yang efisien untuk membuat suatu fuzzy decision tree. Algoritma fuzzy ID3 adalah sebagai berikut (Liang 2005):
1.
Create a Root node that has a set of fuzzy data with membership value 1.
2.
If a node t with a fuzzy set of data D satisfies the following conditions, then it is a leaf node and assigned by the class name. •
The proportion of class Ck is greater than or equal to θr,
| D Ci | ≥ θr |D| • • 3.
the number of less than θn
•
Replace D by Dj (j=1,2,…,m) and repeat from 2 recursively.
Fuzzy Entropy dan Information Gain Information gain adalah suatu nilai statistik yang digunakan untuk memilih atribut yang akan mengekspansi tree dan menghasilkan node baru pada algoritma ID3. Suatu entropy dipergunakan untuk mendefinisikan nilai information gain. Entropy dirumuskan sebagai berikut:
H s ( S ) = ∑i − Pi * log 2 ( Pi ) N
(1)
dengan Pi adalah rasio dari kelas Ci pada himpunan contoh S = {x1,x2,…,xk}.
Pi
∑ =
k j =1
x j ∈ Ci
(2)
S
Terdapat 2 kasus kasus khusus yang terjadi pada klasifikasi boolean, yang pertama adalah jika semua anggota dari himpunan S memiliki tipe yang sama, maka nilai entropy adalah 0 (nol). Hal ini berarti tidak terjadi ketidakpastian klasifikasi.
H s (S ) = −1* log2 (1) − 0 * log2 (0) = 0 Kedua, jika jumlah contoh positif sama dengan jumlah contoh negatif, maka nilai entropy adalah 1 (satu), hal ini menandakan terjadi ketidakpastian klasifikasi maksimum. H s ( S ) = −0.5 * log 2 (0.5) − 0.5 * log 2 (0.5) = 1
a
data
set
there are no attributes more classifications
is for
If a node D does no satisfy the above conditions, then it is not a leaf-node. And an new sub-node is generated as follow: •
For Ai’s (i=1,…,L) calculate the information gain, and select the test attribute Amax that maximizes them.
•
Devide D into fuzzy subset D1,…,Dm according to Amax, where the membership value of the data in Dj is the product of the membership value in D and the value of Fmax,j of the value of Amax in D.
•
that connect between the nodes tj and t.
Generate new node ti,…,tm for fuzzy subsets D1,…,Dm and label the fuzzy sets Fmax,j to edges
Untuk melakukan perluasan atribut, yang didasarkan pada data dari himpunan contoh, terlebih dahulu harus didefinisikan ukuran standar information gain. Information gain digunakan sebagai ukuran seleksi atribut, yang merupakan hasil pengurangan entropy dari himpunan contoh setelah membagi ukuran himpunan contoh dengan jumlah atributnya. Information gain untuk atribut A didefinisikan sebagai berikut: G( S , A) = H ( S ) −
∑
v∈Values ( A)
dengan bobot Wi =
| Sv | H ( S v ) (3) |S|
| Sv | adalah rasio dari |S|
data dengan atribut v pada himpunan contoh. Pada himpunan data fuzzy, terdapat penyesuaian rumus untuk menghitung nilai
5
entropy untuk atribut dan information gain karena adanya ekspresi data fuzzy. Berikut adalah persamaan untuk mencari nilai fuzzy entropy dari keseluruhan data: H f ( S ) = H s ( S ) = ∑i − Pi * log 2 ( Pi ) N
(4)
Untuk menentukan fuzzy entropy dan information gain dari suatu atribut A pada algoritma fuzzy ID3 (FID3) digunakan persamaan sebagai berikut: H f ( S , A) = −∑i =1 C
∑
N j
µ ij
S
G f ( S ) = H f ( S ) − ∑v ⊆ A N
log 2
∑
N j
µ ij
S
| Sv | * H f ( S v , A) |S|
(5) (6)
dengan µij adalah nilai keanggotaan dari pola ke-j untuk kelas ke-i. Hf(S) menunjukkan entropy dari himpunan S dari data pelatihan pada node. |Sv| adalah ukuran dari subset Sv ⊆ S dari data pelatihan xj dengan atribut v. |S| menunjukkan ukuran dari himpunan S (Liang 2005). Threshold Jika proses learning dari FDT dihentikan sampai semua data contoh pada masingmasing leaf-node menjadi anggota sebuah kelas, akan dihasilkan akurasi yang rendah. Oleh karena itu untuk meningkatkan akurasinya, proses learning harus dihentikan lebih awal atau melakukan pemangkasan tree secara umum (Liang 2005). Untuk itu diberikan 2 (dua) buah threshold yang harus terpenuhi jika tree akan diekspansi, yaitu: •
Fuzziness control threshold (FCT) / θr Jika proporsi himpunan data dari kelas Ck lebih besar atau sama dengan nilai threshold θr, maka ekspansi tree dihentikan. Sebagai contoh: jika diberikan θr adalah 85%, pada sebuah sub-dataset rasio dari kelas 1 adalah 90% dan kelas 2 adalah 10%, maka ekspansi tree dihentikan.
•
Leaf decision threshold (LDT) / θn Jika banyaknya anggota himpunan data pada suatu node lebih kecil dari threshold θn, maka ekspansi tree dihentikan. Sebagai contoh: sebuah himpunan data memiliki 600 contoh dengan θn adalah 2%. Jika jumlah data contoh pada sebuah node lebih kecil dari 12 (2% dari 600), maka ekspansi tree dihentikan.
K-fold Cross Validation K-fold cross validation dilakukan untuk membagi training set dan test set. K-fold cross validation mengulang k-kali untuk membagi sebuah himpunan contoh secara acak menjadi k subset yang saling bebas, setiap ulangan disisakan satu subset untuk pengujian dan subset lainnya untuk pelatihan (Fu 1994). Pada metode tersebut, data awal dibagi menjadi k subset atau “fold” yang saling bebas secara acak, yaitu S1,S2,…,Sk, dengan ukuran setiap subset kira-kira sama. Pelatihan dan pengujian dilakukan sebanyak k kali. Pada iterasi ke-i, subset Si diperlukan sebagai data pengujian dan subset lainnya diperlukan sebagai data pelatihan. Pada iterasi pertama S2,...,Sk menjadi data pelatihan dan S1 menjadi data pengujian; pada iterasi kedua S1,S3,...,Sk menjadi data pelatihan dan S2 menjadi data pengujian dan seterusnya. Sistem Inferensi Fuzzy Sistem inferensi fuzzy adalah suatu framework yang didasarkan pada konsep himpunan fuzzy, fuzzy if-then rules, dan fuzzy reasoning. FIS dapat menerima input berupa bilangan crisp atau bilangan fuzzy, tapi outputnya hampir semua berupa himpunan fuzzy. Pada sistem inferensi fuzzy yang outputnya berupa nilai crisp dibutuhkan metode defuzzifikasi untuk menghasilkan nilai crisp dari suatu himpunan fuzzy. Salah satu metode inferensi fuzzy yang paling umum digunakan adalah metode inferensi Mamdani (Ormos 2004).
METODE PENELITIAN Proses dasar sistem mengacu pada proses dalam Knowledge Discovery in Database (KDD). Proses tersebut dapat diuraikan sebagai berikut : a. Pembersihan data, membuang data dengan nilai yang hilang dan data yang duplikat. b. Transformasi data, proses transformasi data ke bentuk yang dapat di-mining. Sebelum di-mining, data diabetes diubah ke dalam bentuk data fuzzy. c. Data dibagi menjadi training set dan test set dengan menggunakan metode k-fold cross validation d. Aplikasi teknik data mining, merupakan tahap yang penting karena pada tahap ini teknik data mining diaplikasikan terhadap data. Untuk menemukan aturan klasifikasi digunakan metode fuzzy decision tree.
6
Langkah-langkah pada metode tersebut yaitu: 1. Menentukan digunakan.
atribut
yang
akan
2. Menentukan banyaknya fuzzy set untuk masing-masing atribut. 3. Menentukan banyaknya training set yang akan digunakan. 4. Menghitung membership value. 5. Memilih besarnya threshold yang akan digunakan. 6. Membangun fuzzy decision tree dengan algoritma Fuzzy ID3. e. Presentasi pengetahuan, merupakan tahap akhir dimana pada tahap ini pola yang telah ditemukan dipresentasikan ke pengguna dengan teknik visualisasi agar pengguna dapat memahaminya. Deskripsi aturan klasifikasi akan dipresentasikan dalam bentuk aturan logika untuk selanjutnya dievaluasi hasil pengetahuan yang didapatkan. Alur proses untuk membangun sebuah classifier dapat dilihat pada Gambar 2. Data Diabetes
Pembersihan Data
Transformasi Data
Fuzzy Data
Training set
Pembagian Data (k-fold cross validation)
Pemilihan nilai threshold
Training (FID3)
Test set
Testing (FIS Mamdani)
Model (kumpulan aturan)
Tidak
Akurasi > 90
Representasi Pengetahuan
Ya
Gambar 2 Diagram alur proses klasifikasi Lingkungan Pengembangan Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk penelitian ini adalah sebagai berikut :
a. Perangkat keras berupa komputer personal dengan spesifikasi: • Prosesor AMD Athlon 64 2800+ • Memori DDR 512 MB • Harddisk 80 GB • Keyboard dan mouse • Monitor b. Perangkat Lunak • Sistem operasi Windows XP Profesional • Matlab 7.0.1 untuk membangun aplikasi • Microsoft Excel 2003 sebagai media penyimpanan data
HASIL DAN PEMBAHASAN Sebelum masuk pada proses data mining data diabetes akan melalui tahap praproses. Yang pertama dilakukan adalah menggabungkan 2 (dua) buah file dengan format spreadsheet excel yang masing-masing berisi data catatan medis pasien rawat inap antara lain: KEY_id, TGL_Periksa, MRN (medical record number), tensi, nadi, suhu, tinggi, berat dan diagutama, serta data hasil pemeriksaan laboratorium antara lain: key_transaksi, no.RM (nomor rekam medis/MRN), tgl.proses, ordertest_code, test_name, result, unit, flag, ref_range, status. Sebelum data digabungkan, terlebih dahulu dilakukan pemilihan atribut yang ada pada data hasil pemeriksaan laboratorium. Atribut yang dipilih untuk membuat aturan atau model dalam melakukan klasifikasi potensi seseorang terserang diabetes pada penelitian ini adalah GLUN, GPOST, HDL, dan TG (Herwanto 2006). Atribut GLUN, GPOST, HDL, dan TG yang pada awalnya merupakan item dari kolom ordertest_code, masing-masing akan dijadikan sebagai kolom baru, sedangkan item yang lain dari kolom ordertest_code tidak digunakan. Kolom result yang berisi hasil laboratorium dari pemeriksaan GLUN, GPOST, HDL, dan TG akan dijadikan item dari masing-masing atribut tersebut. Setelah pemilihan atribut dilakukan, diperoleh tabel baru yang terdiri dari 5 kolom yaitu MRN, GLUN, GPOST, HDL, dan TG. Untuk data catatan medis rawat inap hanya dipilih satu atribut saja, yaitu diagutama (hasil pemeriksaan lab / diagnosis), sehingga diperoleh tabel dua kolom yaitu MRN dan diagutama.
7
Pembersihan Data Pembersihan data dilakukan terhadap data yang memiliki nilai kosong dan duplikat. Setelah dilakukan penghapusan record yang mengandung nilai kosong dan atau duplikat diperoleh data bersih sebanyak 290 record. Beberapa contoh data setelah proses pembersihan dapat dilihat pada Lampiran 1. Transformasi Data Pada penelitian ini, teknik data mining yang digunakan adalah fuzzy decision tree (FDT), oleh karena itu data yang digunakan harus direpresentasikan ke dalam bentuk fuzzy. Dari 5 (lima) atribut yang digunakan pada penelitian ini 4 di antaranya merupakan atribut yang kontinu, yaitu GLUN, GPOST, HDL, dan TG. Lain halnya dengan atribut diagutama yang merupakan atribut kategorik. Berdasarkan referensi hasil laboraturium, range normal untuk atribut GLUN, GPOST, HDL, dan TG diperlihatkan pada Tabel 1.
1 ; x < 65 ⎧ ⎪ x − 75 ; 65 <= x < 75 µ rendah ( x) = ⎨ ⎪ −10 0 ; x >= 75 ⎩
⎧ 0 ⎪ x − 65 ⎪ ⎪ 10 µsedang( x) = ⎨ 1 ⎪ x −115 ⎪ − 10 ⎪ 0 ⎩
;
x < 65
;
65 <= x < 75
;
x >= 115
⎧ 0 ⎪ x − 105 ⎪ ⎪ 10 µtinggi ( x) = ⎨ 1 ⎪ x − 145 ⎪ − 10 ⎪ 0 ⎩
;
x < 105
; 75 <= x < 105 ; 105 <= x < 115
; 105 <= x < 115 ; 115 <= x < 135 ; 135 <= x < 145 ;
x >= 145
x < 135 ; ⎧ 0 ⎪ x − 135 ; 135 <= x < 145 µ sangatTinggi ( x) = ⎨ ⎪ 10 ; x >= 145 ⎩ 1
Himpunan fuzzy untuk setiap linguistic term menggunakan kurva dengan bentuk trapesium seperti pada Gambar 3. M F GLUN 1 0,8
MF
Penggabungan data catatan medis rawat inap dan hasil pemeriksaan laboratorium dilakukan berdasarkan kesamaan nilai MRN dari masing-masing record pada kedua tabel tersebut. Hasil akhir dari proses integrasi data berupa tabel baru yang terdiri dari 6 (enam) buah kolom yaitu MRN, GLUN (Glukosa Darah Puasa), GPOST (Glukosa Darah 2 Jam Pasca Puasa), HDL (Kolesterol HDL), TG (Trigliserida) dan diagutama. Tabel hasil penggabungan ini terdiri dari 300 record dan disimpan dalam format spreadsheet excel.
µ_rendah
0,6
µ_s edang
0,4
µ_tinggi µ_s angatTinggi
0,2 0 1
18
35
52
69
86 103 120 137
GLUN
Tabel 1 Nilai referensi hasil laboratorium Kode Pemeriksaan GLUN GPOST HDL TG
Satuan Mg/DL Mg/DL Mg/DL Mg/DL
Nilai Normal 70 ~ 100 100 ~ 140 40 ~ 60 50 ~ 150
Atribut yang telah ditransformasi ke dalam bentuk fuzzy antara lain: • Atribut GLUN Atribut GLUN dibagi menjadi 4 kelompok atau linguistic term, yaitu rendah (GLUN < 70 mg/DL), sedang (70 mg/DL <= GLUN < 110 mg/DL), tinggi (110 mg/DL <= GLUN < 140 mg/DL), dan sangat tinggi (GLUN >= 140 mg/DL) (Herwanto 2006). Dari pembagian itu dapat ditentukan membership function dari himpunan fuzzy rendah, sedang, tinggi, dan sangat tinggi untuk atribut GLUN secara terpisah yaitu:
Gambar 3 Himpunan fuzzy atribut GLUN
• Atribut GPOST Atribut GPOST dibagi menjadi 4 kelompok atau linguistic term, yaitu rendah (GPOST < 100 mg/DL), sedang (100 mg/DL <= GPOST < 140 mg/DL), tinggi (140 mg/DL <= GPOST < 200 mg/DL), dan sangat tinggi (GPOST >= 200 mg/DL) (Herwanto 2006). Dari pembagian itu dapat ditentukan membership function dari himpunan fuzzy rendah, sedang, tinggi, dan sangat tinggi untuk atribut GPOST secara terpisah yaitu: 1 ; x < 95 ⎧ ⎪ x − 105 ; 95 <= x < 105 µ rendah ( x) = ⎨ ⎪ − 10 0 ; x >= 105 ⎩
8
x < 95
⎧ 0 ⎪ x − 95 ⎪ ⎪ 10 µ sedang( x) = ⎨ 1 ⎪ x −145 ⎪ −10 ⎪ 0 ⎩
;
;
x >=145
⎧ 0 ⎪ x − 135 ⎪ ⎪ 10 µtinggi ( x) = ⎨ 1 ⎪ x − 205 ⎪ − 10 ⎪ 0 ⎩
;
x < 135
; 95 <= x < 105 ; 105<= x < 135 ; 135<= x < 145
; 135 <= x < 145
;
6 11 16 21 26 31 36 41 46 51 56 61 66 71
µ_sangatTinggi 0,2 0 85 106 127 148 169 190 211 GPOST
Gambar 4 Himpunan fuzzy atribut GPOST
• Atribut HDL Atribut HDL dibagi menjadi 3 kelompok atau linguistic term, yaitu rendah (HDL < 40 mg/DL), sedang (40 mg/DL <= HDL < 60 mg/DL), dan tinggi (HDL >= 60 mg/DL) (Herwanto 2006). Dari pembagian itu dapat ditentukan membership function dari himpunan fuzzy rendah, sedang, tinggi, dan sangat tinggi untuk atribut HDL secara terpisah yaitu:
Gambar 5 Himpunan fuzzy atribut HDL
• Atribut TG Atribut TG dibagi menjadi 3 kelompok atau linguistic term, yaitu rendah (TG < 50 mg/DL), sedang (50 mg/DL <= TG < 150 mg/DL), dan tinggi (TG >= 150 mg/DL) (Herwanto 2006). Dari pembagian itu dapat ditentukan membership function dari himpunan fuzzy rendah, sedang, tinggi, dan sangat tinggi untuk atribut TG secara terpisah yaitu: 1 ; x < 45 ⎧ ⎪ x − 55 µrendah( x) = ⎨ ; 45 <= x < 55 ⎪ − 10 0 ; x >= 55 ⎩
⎧ 0 ⎪ x − 45 ⎪ ⎪ 10 µsedang( x) = ⎨ 1 ⎪ x − 155 ⎪ − 10 ⎪ 0 ⎩
x >= 65
;
45 <= x < 55
; 55 <= x < 145 ; 145 <= x < 155 ;
x >= 155
MF TG
; 35 <= x < 45 ; 55 <= x < 65
x < 45
Himpunan fuzzy untuk setiap linguistic term menggunakan kurva dengan bentuk trapesium seperti pada Gambar 6.
x < 35
; 45 <= x < 55
;
; x < 145 ⎧ 0 ⎪ x − 145 µ tinggi ( x) = ⎨ ; 145 <= x < 155 ⎪ 10 x >= 155 ; ⎩ 1
1 0,8 MF
MF
µ_rendah µ_sedang µ_tinggi
;
µ_sedang
HDL
0,4
;
µ_tinggi
1
0,6
⎧ 0 ⎪ x − 35 ⎪ ⎪ 10 µ sedang( x) = ⎨ 1 ⎪ x − 65 ⎪ −10 ⎪ 0 ⎩
µ_rendah
0,4
0
0,8
1 ; x < 35 ⎧ ⎪ x − 45 ; 35 <= x < 45 µ rendah ( x) = ⎨ ⎪ − 10 0 ; x >= 455 ⎩
0,6
0,2
x >= 205
MF GPOST
64
0,8
; 195 <= x < 205
1
43
1
MF
; 145 <= x < 195
Himpunan fuzzy untuk setiap linguistic term menggunakan kurva dengan bentuk trapesium seperti pada Gambar 4.
22
Himpunan fuzzy untuk setiap linguistic term menggunakan kurva dengan bentuk trapesium seperti pada Gambar 5. MF HDL
; x < 195 ⎧ 0 ⎪ x − 195 ; 195 <= x < 205 µsangatTinggi ( x) = ⎨ ⎪ 10 ; x >= 205 ⎩ 1
1
; x < 55 ⎧ 0 ⎪ x − 55 µ tinggi ( x) = ⎨ ; 55 <= x < 65 ⎪ 10 ; x >= 65 ⎩ 1
0,6
µ_rendah
0,4
µ_tinggi
µ_sedang
0,2 0 1
16
31
46
61
76
91
106 121 136 151 166
TG
Gambar 6 Himpunan fuzzy atribut TG
9
• Atribut Diagnosis Atribut Diagnosis selanjutnya akan disebut sebagai CLASS, direpresentasikan oleh dua buah peubah linguistik yaitu ”negatif diabetes” dan ”positif diabetes”. Kedua linguistic termnya tersebut didefinisikan sebagai berikut: ”negatif diabetes” = 0 ”positif diabetes” = 1 Data dari atribut GLUN, GPOST, HDL, dan TG kemudian akan ditransformasi ke dalam bentuk fuzzy dengan menghitung derajat keanggotaan fuzzy pada tiap-tiap himpunan dari domain setiap atribut linguistik. Nilai-nilai dari atribut CLASS yang awalnya berisi hasil diagnosis laboratorium akan ditransformasi menjadi 2 (dua) kategori saja, yaitu negatif diabetes yang di representasikan dengan angka 1, dan positif diabetes yang direpresentasikan dengan angka 2. Nilai atribut CLASS yang akan dikategorikan sebagai positif diabetes adalah diagnosis dengan label E10 (Insulindependent diabetes mellitus), E11 (Noninsulin-dependet diabetes mellitus), E12 (Malnutrition-related diabetes mellitus), dan E13 (Unspecified diabetes mellitus), selainnya dikategorikan sebagai negatif diabetes. Contoh hasil dari proses transformasi dapat dilihat pada Lampiran 2. Untuk kolom MRN akan diubah menjadi kolom No. dan nilainya diubah dari text menjadi angka. Hal ini dilakukan untuk mempermudah pembuatan aplikasi dengan menggunakan Matlab. Data Mining Pada tahap ini dilakukan teknik data mining menggunakan algoritma FID3 untuk membangun fuzzy decision tree (FDT). Data yang telah ditransformasi akan dibagi menjadi training set dan test set. Pembagian data ini menggunakan metode 10-fold cross validation. Data akan dibagi menjadi 10 subset (S1,....,S10) yang berbeda dengan jumlah yang sama besar. Setiap kali sebuah subset digunakan sebagai test set maka 9 buah partisi lainnya akan dijadikan sebagai training set. • Training Fase training dilakukan untuk membangun FDT dengan menggunakan algoritma FID3. Proses training harus melalui berbagai tahapan, sebagai contoh
akan dijelaskan pembentukan FDT dengan menggunakan contoh training set yang terdiri dari 15 data atau record. Contoh data untuk proses training dapat dilihat pada pada Lampiran 3. Pada contoh training set tersebut akan diterapkan algoritma fuzzy ID3 untuk menemukan model atau aturan klasifikasi. Langkah-langkah pembentukan aturan klasifikasi dengan algoritma FID3, yaitu: 1. Membuat root node dari semua data training yang ada dengan memberi nilai derajat keanggotaan untuk semua record sama dengan 1. 2. Menghitung fuzzy entropy dari training set yang ada. Dari hasil perhitungan diperoleh nilai fuzzy entropy sebesar 0.9968. Nilai ini akan digunakan untuk menghitung nilai information gain dari masing-masing atribut. 3. Menghitung information gain dari atribut GLUN, GPOST, HDL, dan TG, masingmasing diperoleh nilai 0.2064, 0.3330, 0.0304, dan 0.0050. Dari hasil tersebut dipilih atribut dengan nilai information gain terbesar yaitu GPOST. Atribut GPOST selanjutnya digunakan untuk mengekspansi tree atau menjadi rootnode, tapi pada sub-node selanjutnya atribut GPOST tidak dapat digunakan untuk mengekspansi tree. 4. Data training diekspansi berdasarkan atribut GPOST sehingga diperoleh hasil seperti pada Gambar 7.
Gambar 7 Hasil ekspansi training set berdasarkan atribut GPOST Nilai derajat keanggotaan yang baru masing-masing record pada sub-node diperoleh dari hasil perkalian antara derajat keanggotaan pada root node dan derajat keanggotaan atribut yang digunakan untuk mengekspansi tree. Misalkan, untuk sub-node dengan nilai atribut rendah, nilai derajat keanggotaan dari data no.38 µl = 0.1 dan derajat
10
keanggotaan dari data no.38 pada root node µold = 1, maka nilai derajat keanggotaannya pada sub-node µnew adalah:
atau aturan klasifikasi yang diperoleh dapat dilihat pada Tabel 2.
µ new = µ l ⊗ µ old = 1 ⊗ 0.1 = 0.1 5. Menghitung proporsi dari tiap kelas yang ada pada tiap-tiap node. Misalkan, untuk sub-node dengan nilai keanggotaan atribut rendah, proporsi kelasnya adalah: C1 = 0.1 + 1 + 1 = 2.1
Gambar 8 Fuzzy decision tree untuk contoh training set
C2 = 1 Proporsi
kelas
1
(negatif
diabetes)
C1 = * 100 % = 67 .74 % C1 + C 2
Proporsi kelas 2 (positif diabetes) =
C2 * 100 % = 32 .26 % C1 + C 2
6. Pada contoh ini digunakan fuzziness control threshold (θr ) sebesar 80% dan leaf decision threshold (θn) sebesar 20%*15 = 3. Kedua threshold tersebut akan menentukan apakah sub-node akan terus diekspansi atau tidak. Misalkan subnode dengan nilai atribut rendah yang memiliki data sebanyak 4, berdasarkan nilai proporsi kelas 1 (67.74%) dan kelas 2 (32.26%) yang lebih kecil dari θr (80%) dan banyaknya data atau record pada subnode tersebut lebih besar dari θn, maka sub-node tersebut akan terus diekspansi. Lain halnya jika θr yang digunakan adalah 65%, maka sub-node tersebut tidak akan diekspansi. 7. Ekspansi sub-node terus dilakukan sampai tidak ada lagi data yang dapat diekspansi atau tidak ada lagi atribut yang dapat digunakan untuk mengekspansi tree yaitu ketika tree yang terbentuk sudah mencapai kedalaman maksimum atau sub-node tidak memenuhi syarat dari threshold yang diberikan. Jika sub-node sudah tidak dapat diekspansi maka nilai proporsi kelas terbesar merupakan kesimpulan dari sekumpulan aturan yang diperoleh dengan menghubungkan setiap node yang dilewati dari root node hingga leaf node. Berdasarkan langkah-langkah algoritma FID3 di atas, diperoleh fuzzy decision tree seperti pada Gambar 8 dan sebuah model yang terdiri dari 9 buah aturan dengan menggunakan contoh training set. Model
Tabel 2 Aturan klasifikasi contoh training set No. 1 2 3 4 5 6 7 8 9
Aturan IF GPOST rendah AND HDL rendah THEN Negatif Diabetes IF GPOST rendah AND HDL sedang THEN Negatif Diabetes IF GPOST rendah AND HDL tinggi THEN Positif Diabetes IF GPOST sedang THEN THEN Negatif Diabetes IF GPOST tinggi AND GLUN rendah THEN Negatif Diabetes IF GPOST tinggi AND GLUN sedang THEN Negatif Diabetes IF GPOST tinggi AND GLUN tinggi THEN Negatif Diabetes IF GPOST tinggi AND GLUN sangat tinggi THEN Positif Diabetes IF GPOST sangat tinggi THEN Positif Diabetes
Data hasil transformasi yang telah dibagi menggunakan metode 10-fold cross validation, dikenakan perlakuan yang sama berdasarkan algoritma FID3 untuk melakukan proses training. Proses training dilakukan sebanyak 240 kali. Untuk tiaptiap training set, proses training dilakukan sebanyak 24 kali, dengan mengubah nilai θr sebanyak 6 kali yaitu 75%, 80%, 85%, 90%, 95%, dan 98%, dan untuk masing-masing nilai θr yang sama diberikan nilai θn yang berbeda-beda yaitu 3%, 5%, 8%, dan 10%. Jumlah aturan dan waktu eksekusi untuk masing-masing training set secara keseluruhan dapat dilihat pada Lampiran 4 dan Lampiran 5. Rata-rata jumlah aturan yang dihasilkan pada proses training dan waktu eksekusi yang dibutuhkan dapat dilihat pada Tabel 3 dan Tabel 4.
11
θr 75% 80% 85% 90% 95% 98%
θn 3% 4 7 11 12 20 27
5% 4 7 10 11 18 24
8% 4 7 10 10 15 20
10% 4 6 8 8 11 16
Nilai-nilai θr dan θn yang digunakan dipilih berdasarkan hasil percobaan, karena dengan nilai-nilai tersebut jumlah model atau aturan yang dihasilkan mengalami perubahan yang cukup signifikan. Dengan nilai θr 70%, aturan yang diperoleh tidak berbeda dengan nilai θr 75% sehingga nilai θr hanya dipilih sampai 75%. Tabel 4 Rata-rata waktu eksekusi dalam satuan detik θr 75% 80% 85% 90% 95% 98%
θn 3% 0,125 0,239 0,344 0,404 0,717 0,955
5% 0,128 0,227 0,334 0,361 0,594 0,842
8% 0,120 0,214 0,308 0,328 0,492 0,712
10% 0,127 0,183 0,244 0,264 0,356 0,544
Berdasarkan hasil percobaan, semakin tinggi nilai θr semakin banyak pula aturan yang dihasilkan. Hal ini terjadi karena sebelum suatu node didominasi oleh sebuah kelas dan proporsi untuk kelas tersebut di atas atau sama dengan nilai θr maka tree akan terus diekspansi. Pada Tabel 3 terlihat bahwa peningkatan yang paling signifikan terjadi pada saat nilai θr dinaikkan dari 90% menjadi 95% dan dari 95% menjadi 98%. Kondisi semacam ini disebabkan pada saat ekspansi training set yang pertama kali dilakukan banyak sub-node yang proporsi salah satu kelasnya sudah mencapai nilai di atas 90%, sehingga sub-node tersebut tidak perlu diekspansi lagi. Ketika nilai θr ditingkatkan sampai 95%, baru terjadi ekspansi pada beberapa sub-node yang lain dan hasil proporsi kelas pada node di bawahnya pun ternyata banyak yang lebih rendah dari nilai θr yang mengakibatkan training set akan terus diekspansi sampai seluruh atribut terpakai.
Jika diamati dengan seksama pada Tabel 3, walaupun nilai θn ditingkatkan, jumlah aturan yang dihasilkan tidak mengalami penurunan secara signifikan. Berdasarkan pengamatan yang dilakukan, ternyata karakteristik data pada training set yang digunakan tidak terlalu berbeda, pada saat terjadi ekspansi tree data tidak akan terlalu menyebar, karenanya jumlah himpunan data yang ada pada sub-node tidak berbeda jauh dengan jumlah himpunan data yang ada pada root-node. Dengan adanya situasi yang demikian, syarat untuk menghentikan ekspansi tree yaitu jumlah data atau record pada sub-node harus lebih kecil dari nilai θn sulit untuk tercapai. Nilai θr yang terlalu rendah dan atau θn yang terlalu tinggi akan menghasilkan tree dengan ukuran yang kecil sehingga jumlah aturan yang dihasilkan juga sangat sedikit. Hal ini terjadi karena tree yang sedang dibangun mengalami pemangkasan (pruning) pada saat model masih mempelajari struktur dari training set. Sebaliknya, nilai θr yang terlalu tinggi dan atau θn yang terlalu rendah kadang kala akan menyebabkan fuzzy decision tree berperilaku seperti decision tree biasa yang tidak memerlukan adanya threshold sehingga menghasilkan tree dengan ukuran sangat besar dan jumlah aturan yang juga sangat banyak, karena tree akan terus diekspansi sampai leaf-node terdalam. 30 25 Jum lah Aturan
Tabel 3 Rata-rata jumlah aturan
20 15 10 5 0 75%
80%
85%
90%
95%
98%
θr
θn=3%
θn=5%
θn=8%
θn=10%
Gambar 9 Perbandingan rata-rata jumlah aturan Gambar 9 menunjukkan perbandingan rata-rata jumlah aturan yang dihasilkan pada proses training. Dapat terlihat bahwa semakin tinggi nilai θr akan menyebabkan jumlah aturan yang dihasilkan juga meningkat. Hal sebaliknya terjadi jika nilai θn semakin tinggi maka aturan yang dihasilkan cenderung berkurang.
12
berbeda. Sebagai contoh lihat Tabel 5 dan Tabel 6.
1,200
W aktu (detik)
1,000
Tabel 5 Model untuk training set pertama dengan θr (75%) dan θn (3%)
0,800 0,600 0,400 0,200 0,000 75%
80%
85%
90%
95%
98%
θr
θn=3%
θn=5%
θn=8%
θn=10%
Gambar 10 Perbandingan rata-rata waktu eksekusi proses training Dengan melihat Gambar 9 dan Gambar 10, dapat disimpulkan bahwa, semakin tinggi nilai θr yang digunakan akan menghasilkan jumlah aturan yang semakin banyak sehingga waktu yang dibutuhkan untuk menghasilkan aturan-aturan tersebut juga meningkat. Hal ini terjadi karena proses yang harus dilakukan untuk membangun tree semakin banyak. • Testing Untuk mengukur tingkat akurasi dari model yang dihasilkan pada fase training, proses testing dilakukan sebanyak 240 kali. Proses testing dilakukan dengan cara memasukkan aturan yang diperoleh dari proses training ke dalam sebuah FIS Mamdani untuk menentukan kelas dari masing-masing record pada test set. Untuk satu kali proses training dilakukan satu kali proses testing. Hasil proses testing secara keseluruhan dapat dilihat pada Lampiran 6. Dengan melihat hasil testing, mengubah nilai θr dan θn tidak menyebabkan adanya perubahan pada nilai akurasi dari model yang ada, walaupun jumlah aturan yang dihasilkan proses training mengalami peningkatan. Hal ini terjadi karena secara kebetulan semua aturan pada kedua model tersebut memiliki kelas target yang sama yaitu negatif diabetes dan test set yang digunakan juga berasal dari kelas target yang sama sehingga hasil testing dari kedua buah model dengan test set yang sama tidak mengalami perubahan. Namun model dengan aturan yang seragam seperti ini tidak dapat dipakai untuk mengetahui label kelas suatu objek karena berapapun nilai atribut yang diberikan hasilnya akan selalu negatif diabetes. Hasil testing akan berbeda jika aturan-aturan pada model yang dihasilkan memiliki kelas target yang
No. 1
IF GPOST rendah THEN Negatif Diabetes
2
IF GPOST sedang THEN Negatif Diabetes
3
IF GPOST tinggi THEN Negatif Diabetes IF GPOST sangat tinggi THEN Negatif Diabetes
4
Aturan
Tabel 6 Model untuk training set pertama dengan θr (85%) dan θn (3%) No. 1
IF GPOST rendah THEN Negatif Diabetes
2
IF GPOST sedang THEN Negatif Diabetes
3
IF GPOST tinggi THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN rendah THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN sedang AND TG sedang THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN sedang AND TG tinggi THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN tinggi THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN sangat tinggi AND HDL rendah AND TG sedang THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN sangat tinggi AND HDL rendah AND TG tinggi THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN sangat tinggi AND HDL sedang AND TG sedang THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN sangat tinggi AND HDL sedang AND TG tinggi THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN sangat tinggi AND HDL tinggi THEN Negatif Diabetes
4 5 6 7 8 9 10 11 12
Aturan
Aturan-aturan yang terdapat pada Tabel 5 dan Tabel 6 semuanya memiliki kelas target yang sama yaitu negatif diabetes. Hal ini terjadi karena training set yang digunakan pada saat proses training mayoritas (90%) memiliki label kelas negatif diabetes sehingga aturan-aturan yang dihasilkan juga cenderung memiliki kelas target negatif diabetes. Pada test set ketujuh dan kedelapan, nilai akurasi mengalami penurunan saat θr ditingkatkan menjadi 80%. Berdasarkan pengamatan yang dilakukan, keadaan seperti ini dinamakan overfitting karena terlalu tingginya θr untuk training set tersebut, sehingga tree akan terus diekspansi sampai betul-betul sesuai dengan training set. Akibatnya tree yang dibentuk dapat mengandung node-node yang secara
13
tidak sengaja sesuai dengan beberapa titik noise (data yang mengalami kesalahan klasifikasi) pada training set.
15. 16.
Representasi Pengetahuan
17.
Model hasil proses training digunakan untuk mengetahui label kelas pada data yang baru. Model tersebut dipilih berdasarkan 3 (tiga) kriteria berikut yang diurutkan berdasarkan prioritas: 1. Model yang mencakup semua kelas target yang mungkin muncul dalam test set, dalam penelitian ini kelas target yang mungkin muncul yaitu kelas target 1 (negatif diabetes) dan kelas target 2 (positif diabetes). 2. Model dengan akurasi yang tinggi, semakin tinggi akurasinya maka semakin baik model tersebut. 3. Model dengan jumlah aturan yang paling banyak.
18.
Berdasarkan kriteria tersebut maka model yang dipilih adalah hasil training dengan nilai θr dan θn masing-masing 98% dan 3% dari pasangan training set dan test set kesepuluh dengan jumlah aturan sebanyak 30. Dari 30 aturan tersebut hanya 1 aturan yang mengandung kelas target positif diabetes. Model yang dihasilkan adalah sebagai berikut: 1. IF GPOST rendah AND HDL rendah THEN 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.
Negatif Diabetes IF GPOST rendah AND HDL sedang AND TG rendah THEN Negatif Diabetes IF GPOST rendah AND HDL sedang AND TG sedang AND GLUN rendah THEN Negatif Diabetes IF GPOST rendah AND HDL sedang AND TG sedang AND GLUN sedang THEN Negatif Diabetes IF GPOST rendah AND HDL sedang AND TG sedang AND GLUN tinggi THEN Negatif Diabetes IF GPOST rendah AND HDL sedang AND TG tinggi THEN Negatif Diabetes IF GPOST rendah AND HDL tinggi AND GLUN rendah AND TG sedang THEN Negatif Diabetes IF GPOST rendah AND HDL tinggi AND GLUN rendah AND TG tinggi THEN Negatif Diabetes F GPOST rendah AND HDL tinggi AND GLUN sedang THEN Negatif Diabetes IF GPOST sedang THEN Negatif Diabetes IF GPOST tinggi AND GLUN rendah THEN Negatif Diabetes IF GPOST tinggi AND GLUN sedang THEN Negatif Diabetes IF GPOST tinggi AND GLUN tinggi AND HDL rendah AND TG sedang THEN Negatif Diabetes IF GPOST tinggi AND GLUN tinggi AND HDL rendah AND TG tinggi THEN Negatif Diabetes
19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30.
IF GPOST tinggi AND GLUN tinggi AND HDL sedang THEN Negatif Diabetes IF GPOST tinggi AND GLUN tinggi AND HDL tinggi THEN Negatif Diabetes IF GPOST tinggi AND GLUN sangat tinggi AND TG sedang THEN Negatif Diabetes IF GPOST tinggi AND GLUN sangat tinggi AND TG tinggi THEN Positif Diabetes IF GPOST sangat tinggi AND GLUN rendah THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN sedang THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN tinggi AND TG sedang THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN tinggi AND TG tinggi AND HDL rendah THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN tinggi AND TG tinggi AND HDL sedang THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN tinggi AND TG tinggi AND HDL tinggi THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN sangat tinggi AND TG sedang AND HDL rendah THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN sangat tinggi AND TG sedang AND HDL sedang THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN sangat tinggi AND TG sedang AND HDL tinggi THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN sangat tinggi AND TG tinggi AND HDL rendah THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN sangat tinggi AND TG tinggi AND HDL sedang THEN Negatif Diabetes IF GPOST sangat tinggi AND GLUN sangat tinggi AND TG tinggi AND HDL tinggi THEN Negatif Diabetes
Evaluasi Kinerja FID3 Evaluasi kinerja algoritma FID3 dapat diketahui dengan cara menghitung rata-rata akurasi dari seluruh proses testing pada 10 test set yang berbeda. Evaluasi kinerja dari algoritma FID3 pada nilai θr dan θn yang berbeda dapat dilihat pada Tabel 7 dan Gambar 11. Tabel 7 Evaluasi kinerja FID3 θr 75% 80% 85% 90% 95% 98%
θn 3% 94,14 92,07 92,07 92,07 90,69 90,69
5% 94,14 92,07 92,07 92,07 91,73 91,73
8% 94,15 93,45 93,45 93,45 93,10 93,10
10% 94,15 93,45 93,45 93,45 93,45 93,45
14
95,00 94,00 Akurasi
93,00 92,00 91,00 90,00 89,00 88,00 75%
80%
85%
90%
95%
98%
θr θn=3%
θn=5%
θn=8%
θn=10%
Gambar 11 Evaluasi kinerja FID3 Dari Tabel 7 dan Gambar 11 dapat dilihat bahwa kinerja algoritma FID3 mengalami penurunan jika nilai θr semakin besar dan atau nilai θn semakin kecil, walaupun penurunan yang terjadi tidaklah signifikan sehingga masih dapat ditoleransi. Seperti telah dijelaskan sebelumnya kondisi ini disebabkan karena terjadinya fenomena overfitting. Untuk melakukan proses training dan testing pada saat percobaan telah dibangun sebuah aplikasi sederhana dengan menggunakan Matlab 7.0.1. Pada proses training algoritma yang digunakan adalah FID3, sedangkan pada proses testing digunakan FIS Mamdani. Salah satu antarmuka grafis dari aplikasi tersebut dapat dilihat pada Gambar 12.
2. Jumlah aturan yang diperoleh sebanyak 30 buah aturan dengan akurasi sebesar 90,69% pada nilai θr sebesar 98% dan θn sebesar 3%. 3. Penelitian ini menghasilkan aplikasi sederhana yang dapat digunakan untuk membuat classifier berdasarkan algoritma FID3 dengan menggunakan Matlab 7.0.1. Saran Pada penelitian ini masih terdapat beberapa kekurangan yang dapat diperbaiki pada penelitian selanjutnya. Beberapa saran yang dapat dilakukan antara lain: 1. Pada penelitian selanjutnya proses pembentukan decision tree dapat menggunakan algoritma probabilistic fuzzy ID3 sebagai upaya untuk meningkatkan akurasi dari model yang diperoleh. 2. Pada penelitian ini, data yang digunakan kurang representatif karena jumlah data untuk positif diabetes hanya 17 record, sedangkan untuk negatif diabetes sebanyak 273 record. Penelitian selanjutnya diharapkan menggunakan data yang lebih representatif dengan perbandingan jumlah data positif dan negatif diabetes yang sama besar, sehingga aturan klasifikasi yang dihasilkan memiliki akurasi yang lebih baik lagi. 3. Penggunaan kelas target berupa atribut kuantitatif sehingga hasil diagnosis untuk positif dan negatif diabetes didukung oleh nilai derajat keanggotaan yang berkisar dari 0 sampai 1.
DAFTAR PUSTAKA Cox, E. 2005. Fuzzy Modeling and Algorithms for Data mining and Exploration. USA: Academic Press. Fu L. 1994. Neural Network In Computer Intelligence. Singapura: McGraw Hill. Gambar 12 Antarmuka grafis aplikasi untuk proses training
KESIMPULAN DAN SARAN Kesimpulan Dari berbagai percobaan yang dilakukan terhadap data Diabetes didapat kesimpulan sebagai berikut : 1. Algoritma FID3 dapat digunakan untuk membuat classifier pada data diabetes.
Han J dan Micheline K. 2001. Data mining Concepts and Techniques. USA: Academic Press. Herwanto. 2006. Pengembangan Sistem Data Mining untuk Diagnosis Penyakit Diabetes Menggunakan Algoritme Classification Based Association [Tesis]. Bogor. Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.
15
Liang, G. 2005. A Comparative Study of Three Decision Tree algorithms: ID3, Fuzzy ID3 and Probabilistic Fuzzy ID3. Informatics & Economics Erasmus University Rotterdam. Rotterdam, the Netherlands. Marsala, C. 1998. Application of Fuzzy Rule Induction to Data Mining. France: University Pierre et Marie Curie. Ormos L. 2004. Soft Computing Method On Thom’s Catastrophe Theory For Controlling Of Large-Scale Systems. Hungary. University of Miskolc, Department of Automation. Tan S, Kumar P, Steinbach M. 2005. Introduction To Data mining. AddisonWesley. Yuan Y dan Shaw M J. 1995. Induction of Fuzzy Decision Trees, Fuzzy Sets and Systems vol. 69, 1995, pp. 125-139.
LAMPIRAN
17
Lampiran 1 Contoh data hasil proses pembersihan data No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14
GLUN (mg/DL) 115 0 90 84 78 115 118 88 119 61 0 158 134 172
GPOST (mg/DL) 159 0 145 90 149 138 181 83 116 63 0 196 135 278
HDL (mg/DL) 32 91 28 64 41 46 43 28 29 65 85 68 55 54
TG (mg/DL) 117 91 86 46 52 186 183 139 173 72 85 85 155 126
CLASS 1 1 1 1 1 1 1 1 1 1 1 1 1 1
18
Lampiran 2 Contoh data hasil fuzzifikasi pada proses transformasi data GLUN No.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
(mg/ DL) 115 0 90 84 78 115 118 88 119 61 0 158 134 172 259
MF _
MF _
Ren dah
Sed ang
0 1 0 0 0 0 0 0 0 1 1 0 0 0 0
0 0 1 1 1 0 0 1 0 0 0 0 0 0 0
MF_
GPOST
MF _
MF _
Tinggi
Sangat Tinggi
(mg/ DL)
Ren dah
Sed ang
1 0 0 0 0 1 1 0 1 0 0 0 1 0 0
0 0 0 0 0 0 0 0 0 0 0 1 0 1 1
0 1 0 1 0 0 0 1 0 1 1 0 0 0 0
0 0 0 0 0 0,7 0 0 1 0 0 0 1 0 0
MF_
159 0 145 90 149 138 181 83 116 63 0 196 135 278 351
MF_
HDL
Tinggi
Sangat Tinggi
(mg/ DL)
1 0 1 0 1 0,3 1 0 0 0 0 0,9 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0,1 0 1 1
MF_
32 91 28 64 41 46 43 28 29 65 85 68 55 54 34
MF _
MF _
Ren dah
Sed ang
Tinggi
1 0 1 0 0,4 0 0,2 1 1 0 0 0 0 0 1
0 0 0 0,1 0,6 1 0,8 0 0 0 0 0 1 1 0
0 1 0 0,9 0 0 0 0 0 1 1 1 0 0 0
MF_
TG
(mg/ DL) 117 91 86 46 52 186 183 139 173 72 85 85 155 126 311
MF _
MF _
Ren dah
Sed ang
Tinggi
0 0 0 0,9 0,3 0 0 0 0 0 0 0 0 0 0
1 1 1 0,1 0,7 0 0 1 0 1 1 1 0 1 0
0 0 0 0 0 1 1 0 1 0 0 0 1 0 1
MF_ CLASS
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
19
Lampiran 3 Contoh data untuk proses training GLUN No.
38 39 40 41 42 43 44 45 46 47 48 49 50 51 52
(mg/ DL) 107 87 151 63 68 68 120 71 0 164 129 187 108 208 198
MF _
MF _
Ren dah
Sed ang
0 0 0 1 0,7 0,7 0 0,4 1 0 0 0 0 0 0
0,8 1 0 0 0,3 0,3 0 0,6 0 0 0 0 0,7 0 0
MF_
GPOST
Tinggi
Sangat Tinggi
(mg/ DL)
0,2 0 0 0 0 0 1 0 0 0 1 0 0,3 0 0
0 0 1 0 0 0 0 0 0 1 0 1 0 1 1
MF_
104 150 212 147 90 70 151 112 0 176 246 225 259 232 270
MF _
MF _
Ren dah
Sed ang
0,1 0 0 0 1 1 0 0 1 0 0 0 0 0 0
0,9 0 0 0 0 0 0 1 0 0 0 0 0 0 0
MF_
HDL
Tinggi
Sangat Tinggi
(mg/ DL)
0 1 0 1 0 0 1 0 0 1 0 0 0 0 0
0 0 1 0 0 0 0 0 0 0 1 1 1 1 1
MF_
28 30 40 26 56 43 51 68 147 51 31 65 38 40 34
MF _
MF _
Ren dah
Sed ang
Tinggi
1 1 0,5 1 0 0,2 0 0 0 0 1 0 0,7 0,5 1
0 0 0,5 0 0,9 0,8 1 0 0 1 0 0 0,3 0,5 0
0 0 0 0 0,1 0 0 1 1 0 0 1 0 0 0
MF_
TG
(mg/ DL) 164 177 235 94 77 139 126 78 147 184 535 96 167 58 97
MF _
MF _
Ren dah
Sed ang
Tinggi
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 1 1 1 1 1 0,8 0 0 1 0 1 1
1 1 1 0 0 0 0 0 0,2 1 1 0 1 0 0
MF_ CLASS
1 1 1 1 1 1 1 1 2 2 2 2 2 2 2
20
Lampiran 4 Jumlah aturan yang dihasilkan oleh masing-masing training set
θr 75% 80% 85% 90% 95% 98%
θr 75% 80% 85% 90% 95% 98%
θr 75% 80% 85% 90% 95% 98%
θr 75% 80% 85% 90% 95% 98%
Training set pertama θn 3% 5% 8% 10% 4 4 4 4 4 4 4 4 12 11 11 10 12 11 11 10 21 18 16 12 29 26 23 18 Training set kedua θn 3% 5% 8% 4 4 4 4 4 4 4 4 4 4 4 4 9 9 7 9 9 7 Training set ketiga θn 3% 5% 8% 4 4 4 4 4 4 4 4 4 13 11 11 23 18 16 23 18 16 Training set keempat θn 3% 5% 8% 4 4 4 4 4 4 12 11 11 15 12 11 21 16 15 29 24 22
10% 4 4 4 4 7 7
θr 75% 80% 85% 90% 95% 98%
θr 75% 80% 85% 90% 95% 98%
θr
Training set kelima θn 3% 5% 8% 10% 4 4 4 4 4 4 4 4 12 12 12 8 15 13 12 8 22 19 17 11 30 27 24 18 Training set keenam θn 3% 5% 8% 10% 4 4 4 4 4 4 4 4 13 12 10 8 13 12 11 8 23 22 16 11 31 31 23 18 Training set ketujuh θn 3% 5% 8% 10% 4 4 4 4 10 10 8 8 13 12 10 8 13 12 10 8 21 17 14 10 29 25 22 17
10% 4 4 4 9 12 12
75% 80% 85% 90% 95% 98%
10% 4 4 10 10 12 19
Training set kedelapan LDT θr 3% 5% 8% 10% 4 4 4 4 75% 11 11 11 9 80% 11 11 11 9 85% 11 11 11 9 90% 21 21 15 12 95% 29 29 22 18 98%
21
Lampiran 4 Lanjutan Training set kesembilan θn θr 3% 5% 8% 10% 4 4 4 4 75% 12 12 12 8 80% 12 12 12 8 85% 12 12 12 8 90% 21 19 16 10 95% 29 27 23 17 98%
Training set kesepuluh θn θr 3% 5% 8% 10% 4 4 4 4 75% 12 12 10 8 80% 12 12 10 8 85% 15 13 10 8 90% 22 19 16 11 95% 30 27 22 18 98%
Lampiran 5 Waktu eksekusi algoritma FID3 untuk masing-masing training set dalam satuan detik
θr 75% 80% 85% 90% 95% 98%
θr 75% 80% 85% 90% 95% 98%
θr 75% 80% 85% 90% 95% 98%
Training set kesatu θn 3% 5% 8% 0,125 0,125 0,110 0,109 0,125 0,125 0,390 0,390 0,344 0,391 0,359 0,359 0,719 0,610 0,562 1,063 0,937 0,813 Training set kedua θn 3% 5% 8% 0,125 0,125 0,125 0,141 0,125 0,141 0,125 0,125 0,125 0,140 0,109 0,125 0,312 0,282 0,253 0,312 0,297 0,218 Training set ketiga θn 3% 5% 8% 0,110 0,125 0,125 0,141 0,141 0,125 0,125 0,109 0,141 0,422 0,375 0,344 0,797 0,609 0,532 0,781 0,609 0,516
10% 0,109 0,140 0,329 0,328 0,406 0,640
10% 0,141 0,125 0,125 0,125 0,219 0,203
10% 0,125 0,109 0,141 0,282 0,406 0,375
θr 75% 80% 85% 90% 95% 98%
θr 75% 80% 85% 90% 95% 98%
θr 75% 80% 85% 90% 95% 98%
Training set keempat θn 3% 5% 8% 0,140 0,141 0,125 0,125 0,141 0,156 0,391 0,359 0,359 0,500 0,407 0,360 0,734 0,547 0,500 1,046 0,829 0,750
10% 0,141 0,125 0,328 0,328 0,391 0,593
Training set kelima θn 3% 5% 8% 0,109 0,125 0,141 0,141 0,110 0,125 0,391 0,391 0,391 0,484 0,437 0,391 0,766 0,625 0,593 1,094 0,938 0,969
10% 0,140 0,125 0,250 0,250 0,359 0,610
Training set keenam θn 3% 5% 8% 0,125 0,125 0,125 0,125 0,125 0,141 0,438 0,406 0,344 0,437 0,390 0,313 0,828 0,719 0,531 1,109 1,047 0,797
10% 0,125 0,141 0,250 0,266 0,375 0,609
22
Lampiran 5 Lanjutan
θr 75% 80% 85% 90% 95% 98%
θr 75% 80% 85% 90% 95% 98%
Training set ketujuh θn 3% 5% 8% 0,141 0,140 0,110 0,313 0,328 0,250 0,422 0,406 0,328 0,421 0,390 0,328 0,907 0,578 0,451 1,047 0,906 0,765
10% 0,110 0,256 0,234 0,282 0,328 0,609
Training set kedelapan θn 3% 5% 8% 10% 0,125 0,125 0,109 0,141 0,438 0,375 0,344 0,281 0,359 0,375 0,359 0,266 0,344 0,343 0,360 0,282 0,672 0,703 0,485 0,390 1,047 1,031 0,734 0,609
θr 75% 80% 85% 90% 95% 98%
θr 75% 80% 85% 90% 95% 98%
Training set kesembilan θn 3% 5% 8% 10% 0,125 0,125 0,109 0,109 0,391 0,391 0,390 0,265 0,390 0,406 0,375 0,250 0,390 0,375 0,375 0,250 0,703 0,625 0,515 0,312 0,985 0,906 0,797 0,563 Training set kesepuluh θn 3% 5% 8% 10% 0,125 0,125 0,125 0,125 0,469 0,406 0,344 0,266 0,407 0,375 0,313 0,265 0,515 0,422 0,328 0,250 0,735 0,641 0,500 0,375 1,062 0,922 0,765 0,625
Lampiran 6 Akurasi aturan setelah pengujian dengan menggunakan test set Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan
θr
θn
Akurasi
75% 75% 75% 75% 75% 75% 75% 75% 75% 75%
3% 3% 3% 3% 3% 3% 3% 3% 3% 3%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 94,14%
θr
θn
Akurasi
75% 75% 75% 75% 75% 75% 75% 75% 75% 75%
5% 5% 5% 5% 5% 5% 5% 5% 5% 5%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 94,14%
Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan
θr
θn
Akurasi
75% 75% 75% 75% 75% 75% 75% 75% 75% 75%
8% 8% 8% 8% 8% 8% 8% 8% 8% 8%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 94,14%
θr
θn
Akurasi
75% 75% 75% 75% 75% 75% 75% 75% 75% 75%
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 100,00% 94,14%
23
Lampiran 6 Lanjutan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan
θr
θn
Akurasi
80% 80% 80% 80% 80% 80% 80% 80% 80% 80%
3% 3% 3% 3% 3% 3% 3% 3% 3% 3%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 86,21% 93,10% 100,00% 100,00% 92,07%
θr
θn
Akurasi
80% 80% 80% 80% 80% 80% 80% 80% 80% 80%
5% 5% 5% 5% 5% 5% 5% 5% 5% 5%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 86,21% 93,10% 100,00% 100,00% 92,07%
θr
θn
Akurasi
80% 80% 80% 80% 80% 80% 80% 80% 80% 80%
8% 8% 8% 8% 8% 8% 8% 8% 8% 8%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 100,00% 93,10% 100,00% 100,00% 93,45%
Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan
θr
θn
Akurasi
80% 80% 80% 80% 80% 80% 80% 80% 80% 80%
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 100,00% 93,10% 100,00% 100,00% 93,45%
θr
θn
Akurasi
85% 85% 85% 85% 85% 85% 85% 85% 85% 85%
3% 3% 3% 3% 3% 3% 3% 3% 3% 3%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 86,21% 93,10% 100,00% 100,00% 92,07%
θr
θn
Akurasi
85% 85% 85% 85% 85% 85% 85% 85% 85% 85%
5% 5% 5% 5% 5% 5% 5% 5% 5% 5%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 86,21% 93,10% 100,00% 100,00% 92,07%
24
Lampitan 6 Lanjutan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan
θr
θn
Akurasi
85% 85% 85% 85% 85% 85% 85% 85% 85% 85%
8% 8% 8% 8% 8% 8% 8% 8% 8% 8%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 100,00% 93,10% 100,00% 100,00% 93,45%
θr
θn
Akurasi
85% 85% 85% 85% 85% 85% 85% 85% 85% 85%
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 100,00% 93,10% 100,00% 100,00% 93,45%
θr
θn
Akurasi
90% 90% 90% 90% 90% 90% 90% 90% 90% 90%
3% 3% 3% 3% 3% 3% 3% 3% 3% 3%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 86,21% 93,10% 100,00% 100,00% 92,07%
Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan
θr
θn
Akurasi
90% 90% 90% 90% 90% 90% 90% 90% 90% 90%
5% 5% 5% 5% 5% 5% 5% 5% 5% 5%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 86,21% 93,10% 100,00% 100,00% 92,07%
θr
θn
Akurasi
90% 90% 90% 90% 90% 90% 90% 90% 90% 90%
8% 8% 8% 8% 8% 8% 8% 8% 8% 8%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 100,00% 93,10% 100,00% 100,00% 93,45%
θr
θn
Akurasi
90% 90% 90% 90% 90% 90% 90% 90% 90% 90%
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 100,00% 93,10% 100,00% 100,00% 93,45%
25
Lampiran 6 Lanjutan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan
θr
θn
Akurasi
95% 95% 95% 95% 95% 95% 95% 95% 95% 95%
3% 3% 3% 3% 3% 3% 3% 3% 3% 3%
100,00% 55,17% 82,76% 100,00% 100,00% 100,00% 86,21% 89,66% 100,00% 93,10% 90,69%
θr
θn
Akurasi
95% 95% 95% 95% 95% 95% 95% 95% 95% 95%
5% 5% 5% 5% 5% 5% 5% 5% 5% 5%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 86,21% 89,66% 100,00% 100,00% 91,73%
θr
θn
Akurasi
95% 95% 95% 95% 95% 95% 95% 95% 95% 95%
8% 8% 8% 8% 8% 8% 8% 8% 8% 8%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 100,00% 89,66% 100,00% 100,00% 93,10%
Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan
θr
θn
Akurasi
95% 95% 95% 95% 95% 95% 95% 95% 95% 95%
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 100,00% 93,10% 100,00% 100,00% 93,45%
θr
θn
Akurasi
98% 98% 98% 98% 98% 98% 98% 98% 98% 98%
3% 3% 3% 3% 3% 3% 3% 3% 3% 3%
100,00% 55,17% 82,76% 100,00% 100,00% 100,00% 86,21% 89,66% 100,00% 93,10% 90,69%
θr
θn
Akurasi
98% 98% 98% 98% 98% 98% 98% 98% 98% 98%
5% 5% 5% 5% 5% 5% 5% 5% 5% 5%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 86,21% 89,66% 100,00% 100,00% 91,73%
26
Lampiran 6 Lanjutan Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan
θr
θn
Akurasi
98% 98% 98% 98% 98% 98% 98% 98% 98% 98%
8% 8% 8% 8% 8% 8% 8% 8% 8% 8%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 100,00% 89,66% 100,00% 100,00% 93,10%
Training & Test set 1 2 3 4 5 6 7 8 9 10 Rataan
θr
θn
Akurasi
98% 98% 98% 98% 98% 98% 98% 98% 98% 98%
10% 10% 10% 10% 10% 10% 10% 10% 10% 10%
100,00% 55,17% 86,21% 100,00% 100,00% 100,00% 100,00% 93,10% 100,00% 100,00% 93,45%