TUGAS AKHIR PERIODE JANUARI 2011
Fuzzy Decision Tree dengan Algoritma C4.5 pada Data Diabetes Indian Pima (Januari 2011) Umi Hanik Beberapa tes lab harus dilakukan untuk mengetahui kondisi seseorang didiagnosis menderita penyakit diabetes, US National Institute of Diabetes telah melakukan uji untuk penyakit diabetes sesuai dengan kriteria Organisasi Kesehatan Dunia yang dilakukan pada sejumlah perempuan yang berusia 21 tahun, dari warisan Pima India dan tinggal di dekat Phoenix, Arizona sebanyak 768 objek. . Dengan metode uji coba 3-fold cross validation dari data tersebut dikembangkan untuk analisa data mining penyebab penyakit diabetes yaitu klasifikasi terhadap data diabete yang menggunakan 256 data testing dan sisanya yaitu 512 digunakan sebagai data training. Penerapkan teknik data mining pada data diabetes ini diharapkan dapat ditemukan aturan klasifikasi yang dapat digunakan untuk memprediksi potensi seseorang terserang diabetes, tanpa harus melawan diagnosis penyakit secara langsung dengan diagnosis dini. Rancangan klasifikasi decision tree, menganalisa dan melakukan ujicoba metode klasifikasi fuzzy decision tree pada data diabetes dengan input 9 variabel ujicoba, 768 objek sehingga diharapkan dapat Menemukan aturan klasifikasi pada data diabetes agar dapat digunakan untuk memprediksi gejala seseorang pasien terserang penyakit diabetes, sehingga terjadinya penyakit ini pada seseorang dapat diprediksi sedini mungkin dan dapat dilakukan tindakan antisipasi. Pengolahan klasifikasi fuzzy decision tree ini menggunakan teknik pruning agar rule yang dihasilkan lebih signifikan atau rule yang dihasilkan dapat meningkatkan akurasi yang lebih tinggi lagi. Dengan pruning dihasilkan tingkat akurasi yang lebih tinggi dari pada tidak memakai pruning, dari 69,14% ke 78,91%. Pembagian data himpunan fuzzy dengan menggunakan referensi data standart dengan pruning memiliki tingkat akurasi lebih tinggi 78,91% dibandingkan dengan referensi data kuartil 76,95%. Semakin tinggi θr dan θn, semakin tinggi tingkat akurasi. Dari hasil uji coba 3-fold cross validation didapatkan θn 10 % dan θt 98 % mempunyai tingkat akurasi yang paling tinggi yaitu sebesar 78,91 %. Untuk proses kedepannya pembentukan fungsi fuzzy yang lain selain menggunkan model trapezoidal, seperti model segitiga, kurva S, dan kurva PI agar dapat diketahui pengaruh fungsi keanggotaan fuzzy terhadap akurasi..
Kata kunci: Klasifikasi, fuzzy, data diabetes, entropi, gain, rule, algoritma C4.5. pregnant(time), plasma glucose concentration a 2 hours in I. PENDAHULUAN an oral glucose tolerance test (OGTT), diastolic blood Penyakit diabetes adalah golongan penyakit kronis pressure(D), triceps skin fold thickness (T), 2-Hour serum yang ditandai dengan peningkatan kadar gula dalam darah insulin (IPOST), body mass index (BMI), diabetes pedigree sebagai akibat adanya gangguan sistem metabolisme dalam function(F), Age (T), dan Class variable(Diagnosa). Metode yang digunakan dalam penelitian ini adalah fuzzy tubuh, dimana organ pankreas tidak mampu memproduksi hormon insulin sesuai kebutuhan tubuh [1]. Badan decision tree. Penggunaan teknik fuzzy memungkinkan Kesehatan Dunia (WHO) memperkirakan, setiap 10 detik melakukan prediksi suatu objek yang dimiliki lebih dari satu ada satu orang pasien diabetes yang meninggal karena kelas. Dengan menerapkan teknik data mining pada diabetes penyakit itu dan memperkirakan bahwa 177 juta penduduk ini diharapkan dapat ditemukan aturan klasifikasi yang dapat dunia mengidap penyakit diabetes mellitus atau biasa digunakan untuk memprediksi potensi seseorang terserang disingkat diabetes. Lebih memprihatinkan untuk seorang ibu diabetes, tanpa harus melawan diagnosis penyakit secara yang sedang hamil dan menderita penyakit diabetes, hal itu langsung dengan diagnosis dini. Database diabetes Pima India, disumbangkan oleh sangat membahayakan untuk janin yang dikandung. Untuk itu diagnosis dini sangat diperlukan untuk penderita diabetes Vincent Sigillito. Data Diabetes India Pima adalah agar bisa mengurangi angka kematian pada penderita kumpulan laporan diagnostik medis dari 768 contoh-contoh dari populasi yang tinggal di dekat Phoenix, Arizona, diabetes. Sejumlah rumah sakit sudah menggunakan basis Amerika Serikat. Penelitian sebelumnnya dengan data ini data untuk mengumpulkan dan menyimpan data, namun menggunakan pembelajaran adaptif yang menghasilkan dan data yang terkumpul belum dapat dimanfaatkan secara menjalankan perangkat analog digital perceptron seperti yang disebut ADAP. Mereka membagi 2 dataset yaitu maksimal. Beberapa tes lab harus dilakukan untuk mengetahui dataset untuk training dan dataset untuk testing. Mereka kondisi orang itu didiagnosis menderita penyakit diabetes, menggunakan 512 training dan 256 data testing dengan US National Institute of Diabetes telah melakukan uji untuk menggunakan algoritma LogDisc dan memperoleh akurasi penyakit diabetes sesuai dengan kriteria Organisasi tertinggi 76,95% [4]. Kesehatan Dunia yang dilakukan pada sejumlah perempuan yang berusia 21 tahun, dari warisan Pima India dan tinggal di dekat Phoenix, Arizona sebanyak 768 objek. Dari data tersebut dikembangkan untuk analisa data mining penyebab penyakit diabetes. Data mining merupakan proses ekstraksi informasi atau pola penting dalam basis data berukuran besar [2]. Penelitian ini menggunakan suatu teknik dalam data mining yaitu klasifikasi terhadap data diabetes. Dengan menggunakan 9 variabel yaitu number of times
1
2
TUGAS AKHIR PERIODE JANUARI 2011
mempunyai 2 kemungkinan yaitu merupakan suatu anggota himpunan atau tidak. Derajat keanggotaan 0 (nol) artinya Normalisasi Data Transformasi Data nilai bukan merupakan anggota himpunan dan 1 (satu) berarti nilai tersebut adalah anggota himpunan. Fuzzifikasi merupakan suatu proses untuk mengubah Prapemrosesan Data Diabetes suatu peubah masukan dari bentuk tegas (crisp) menjadi Testing peubah fuzzy (variable linguistik) yang biasanya disajikan dalam bentuk himpunan-himpunan fuzzy dengan fungsi keanggotaannya. Data Training Data Testingmerupakan Evaluasi aturan proses pengambilan Persebaran Data keputusan (inference) yang berdasarkan aturan-aturan yang ditetapkan pada basis aturan (rules base) untuk menghubungkan antar peubah-peubah fuzzy masukan dan Proses Pemilihan Domain fuzzy Proses Pemilihan Domain fuzzy peubah fuzzy keluaran. Aturan-aturan ini berbentuk jika Tabel kuarrtil seluruh data maka (IF -THEN). training Teknik pengambilan keputusan yang digunakan adalah metode max-min. Pada metode max-min, pengambilan Proses Fuzzy Proses Fuzzy keputusan didasarkan pada aturan operasi menurut Tabel referensi trapezium dan kurva Pi. standart Defuzzifikasi merupakan proses pengubahan besaran Pembentukan tree Dengan Algoritma C45 dengan dan fuzzy yang disajikan dalam bentuk himpunanhimpunan fuzzy tanpa pruning (Training) keluaran dengan fungsi keanggotaannya untuk mendapatkan kembali bentuk tegasnya. Ada beberapa hal yang perlu diketahui dalam Rules Diagnosa memahami sistem fuzzy, yaitu: a. Variabel fuzzy Training Variabel fuzzy merupakan variabel yang hendak dibahas dalam suatu Hasil sistem Diagnosafuzzy. Contoh: number of times pregnant(time), plasma glucose concentration a 2 hours in an oral glucose tolerance test (OGTT), diastolic blood pressure Gambar 1 Proses training dan testing(D), sistemtriceps skin fold thickness (T), 2-Hour serum insulin (IPOST), body mass index (waist), Dataset Pima India ini di dapatkan dari diabetes pedigree function(F), Age (T) sedangkan http://archive.ics.uci.edu . yang bersumber dari pemilik yang atribut Diagnosa adalah atribut kategori. Berdasarkan asli yaitu National Institute of Diabetes and Digestive and referensi hasil laboratorium, range normal untuk atribut Kidney Diseases yang diambil juga dari Vincent Sigillito number of times pregnant(time), plasma glucose (vgs '@' aplcen.apl.jhu.edu), Research Center, RMI Group concentration a 2 hours in an oral glucose tolerance test Leader, Applied Physics Laboratory, The Johns Hopkins (OGTT), diastolic blood pressure (D), triceps skin fold University, Johns Hopkins Road, Laurel, MD 20707 [3]. thickness (T), 2-Hour serum insulin (IPOST), body mass Tahap-tahap proses fuzzy decision tree dengan algoritma index (BMI), diabetes pedigree function(F), dan Age C45 seperti pada gambar 1. (T). b. Himpunan fuzzy II. FUZZY DECISION TREE DENGAN ALGORITMA C45 Himpunan fuzzy merupakan suatu grup yang mewakili Fuzzy secara bahasa diartikan sebagai kabur atau suatu kondisi atau keadaan tertentu dalam suatu variabel samar-samar. Suatu nilai dapat bernilai besar atau salah fuzzy. secara bersamaan. Dalam fuzzy dikenal derajat keanggotaan Contoh: yang memiliki rentang nilai 0 (nol) hingga 1(satu). Berbeda Variabel number of times pregnant(time), terbagi dengan himpunan tegas yang memiliki nilai 1 atau 0 (ya menjadi 3 himpunan fuzzy, yaitu: rendah, normal atau tidak). dan tinggi. Logika Fuzzy merupakan sesuatu logika yang memiliki c. Semesta Pembicaraan nilai kekaburan atau kesamaran (fuzziness) antara benar atau Semesta pembicaraan adalah keseluruhan nilai yang salah. Dalam teori logika fuzzy suatu nilai bias bernilai benar diperbolehkan untuk dioperasikan dalam suatu variabel atau salah secara bersama. Namun berapa besar keberadaan fuzzy. Semesta pembicaraan merupakan himpunan dan kesalahan suatu tergantung pada bobot keanggotaan bilangan real yang senantiasa naik (bertambah) secara yang dimilikinya. Logika fuzzy memiliki derajat monoton dari kiri ke kanan. Nilai semesta pembicaraan keanggotaan dalam rentang 0 hingga 1. Berbeda dengan dapat berupa bilangan positif maupun negatif. logika digital yang hanya memiliki dua nilai 1 atau 0. Adakalanya nilai semesta pembicaraan ini tidak dibatasi Logika fuzzy digunakan untuk menterjemahkan suatu batas atasnya. besaran yang diekspresikan menggunakan bahasa Contoh: (linguistic). Misalkan tingginya nilai IPOST (2-Hour serum Semesta pembicaraan untuk variabel time: [0 20] insulin) yang digolongkan ke dalam nilai rendah, normal, Semesta pembicaraan untuk variabel Age : [0 100] dan tinggi. Dan logika fuzzy menunjukkan sejauh mana d. Domain suatu nilai itu benar dan sejauh mana suatu nilai itu salah. Domain himpunan fuzzy adalah keseluruhan nilai yang Tidak seperti logika klasik (scrip)/tegas, suatu nilai hanya diijinkan dalam semesta pembicaraan dan boleh
TUGAS AKHIR PERIODE JANUARI 2011
dioperasikan dalam suatu himpunan fuzzy. Seperti halnya semesta pembicaraan, domain merupakan himpunan bilangan real yang senantiasa naik (bertambah) secara monoton dari kiri ke kanan. Nilai domain dapat berupa bilangan positif maupun negatif. Contoh : Untuk Variabel time RENDAH = [0 2] PABOBAYA = [2 5] TUA = [5 +∞) A. Decision Tree Decision tree merupakan suatu pendekatan yang sangat populer dan praktis dalam machine learning untuk menyelesaikan permasalahan klasifikasi. Pada decision tree terdapat 3 jenis node, yaitu: a. Root Node, merupakan node paling atas, pada node ini tidak ada input dan bisa tidak mempunyai output atau mempunyai output lebih dari satu. b. Internal Node, merupakan node percabangan, pada node ini hanya terdapat satu input dan mempunyai output minimal dua. c. Leaf node atau terminal node, merupakan node akhir, pada node ini hanya terdapat satu input dan tidak mempunyai output. Konsep Decision tree adalah mengubah data menjadi pohon keputusan (decision tree) dan aturan-aturan keputusan (rule). Decision tree membuat aturan rule yang dapat digunakan untuk menentukan apakah seseorang mempunyai potensi untuk menderita diabetes atau tidak berdasarkan number of times pregnant(time), plasma glucose concentration a 2 hours in an oral glucose tolerance test (OGTT), diastolic blood pressure (D), triceps skin fold thickness (T), 2-Hour serum insulin (IPOST), body mass index (waist), diabetes pedigree function(F), Age (T) sedangkan atribut Diagnosa adalah atribut kategorik. Berdasarkan referensi hasil laboratorium, range normal untuk atribut number of times pregnant(time), plasma glucose concentration a 2 hours in an oral glucose tolerance test (OGTT), diastolic blood pressure (D), triceps skin fold thickness (T), 2-Hour serum insulin (IPOST), body mass index (BMI), diabetes pedigree function(F), dan Age (T). Metode decision tree digunakan untuk memperkirakan nilai diskret dari fungsi target, yang mana fungsi pembelajaran direpresentasikan oleh sebuah decision tree [6]. Decision tree merupakan himpunan aturan IF…THEN. Setiap path dalam tree dihubungkan dengan sebuah aturan, di mana premis terdiri atas sekumpulan node-node yang ditemui, dan kesimpulan dari aturan terdiri atas kelas yang terhubung dengan leaf dari path [7]. Dalam pohon keputusan, leaf node diberikan sebuah label kelas. Non-terminal node, yang terdiri atas root dan internal node lainnya, mengandung kondisi-kondisi uji atribut untuk memisahkan record yang memiliki karakteristik yang berbeda. Edge-edge dapat dilabelkan dengan nilai-nilai numeric-symbolic. Sebuah atribut numeric-symbolic adalah sebuah atribut yang dapat bernilai numeric ataupun symbolic yang dihubungkan dengan sebuah variabel kuantitatif. Sebagai contoh, ukuran seseorang dapat dituliskan sebagai atribut numeric-symbolic: dengan nilai kuantitatif, dituliskan dengan “1,72 meter”, ataupun sebagai nilai numeric-symbolic seperti “tinggi” yang berkaitan
dengan suatu ukuran (size). Nilai-nilai seperti inilah yang menyebabkan perluasan dari decision tree menjadi fuzzy decision tree [7]. Penggunaan teknik fuzzy memungkinkan melakukan prediksi suatu objek yang dimiliki oleh lebih dari satu kelas. Fuzzy decision tree memungkinkan untuk menggunakan nilai-nilai numeric-symbolic selama konstruksi atau saat mengklasifikasikan kasus-kasus baru. Manfaat dari teori himpunan fuzzy dalam decision tree ialah meningkatkan kemampuan dalam memahami decision tree ketika menggunakan atribut-atribut kuantitatif. Bahkan, dengan menggunakan teknik fuzzy dapat meningkatkan ketahanan saat melakukan klasifikasi kasus-kasus baru [8]. B. Algoritma C4.5 Algoritma C4.5 yaitu sebuah algoritma yang digunakan untuk membangun decision tree (pengambilan keputusan) . Algoritma C.45 adalah salah satu algoritma induksi pohon keputusan yaitu ID3 (Iterative Dichotomiser 3). ID3 dikembangkan oleh J. Ross Quinlan. Dalam prosedur algoritma ID3, input berupa sampel training, label training dan atribut. Algoritma C4.5 merupakan pengembangan dari ID3. Pohon dibangun dengan cara membagi data secara rekursif hingga tiap bagian terdiri dari data yang berasal dari kelas yang sama. Bentuk pemecahan (split) yang digunakan untuk membagi data tergantung dari jenis atribut yang digunakan dalam split. Algoritma C4.5 dapat menangani data numerik (kontinyu) dan diskret. Split untuk atribut numerik yaitu mengurutkan contoh berdasarkan atribut kontiyu A, kemudian membentuk minimum permulaan (threshold) M dari contoh-contoh yang ada dari kelas mayoritas pada setiap partisi yang bersebelahan, lalu menggabungkan partisi-partisi yang bersebelahan tersebut dengan kelas mayoritas yang sama. Split untuk atribut diskret A mempunyai bentuk value (A) ε X dimana X ⊂ domain(A). . Secara singkat logika algoritma C4.5 yang digunakan adalah sebagai berikut:
a. b. c. d.
Pilih atribut sebagai akar Buat cabang untuk masing-masing nilai Bagi kasus dalam cabang Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera dalam Rumus 1.
(1) Keterangan S : Himpunan kasus A : Atribut n : jumlah partisi A |Si| : Jumlah kasus pada partisi ke i |S| : Jumlah kasus dalam S
3
4
TUGAS AKHIR PERIODE JANUARI 2011
Sedangkan penhitungan nilai entropy dapat dilihat pada rumus 2 berikut: (2) Keterangan : S : Himpunan kasus n : jumlah partisi S pi : Proporsi Si terhadap S C. Pruning Teknik pruning yaitu teknik untuk memotong rule pada decision tree, jika rule yang dihasilkan sudah tidak signifikan. Yaitu dengan cara serupa dengan pascakeputusan pemangkasan pohon, mengurangi kesalahan pemangkasan dengan cara menghapus salah satu dalam aturan kemudian bandingkan tingkat kesalahan pada set validasi sebelum dan setelah pemangkasan, jika memperbaiki kesalahan, lakukan proses prune. Pada tugas akhir ini dilakukan proses pruning dengan menggunakan Threshold dalam Fuzzy Decision Tree (FDT) . Jika pada proses pembelajaran dari FDT dihentikan sampai semua data contoh pada masing-masing leaf-node menjadi anggota sebuah kelas, akan dihasilkan akurasi yang rendah. Oleh karena itu untuk meningkatkan akurasinya, proses learning harus dihentikan lebih awal atau melakukan pemotongan tree secara umum. Untuk itu diberikan 2 (dua) threshold yang harus terpenuhi jika tree akan diekspansi, yaitu [9,10] : Fuzziness control threshold (FCT) / θr Jika proporsi dari himpunan data dari kelas Ck lebih besar atau sama dengan nilai threshold θr, maka hentikan ekspansi tree. Sebagai contoh: jika pada sebuah sub-dataset rasio dari kelas 1 adalah 90%, kelas 2 adalah 10% dan θr adalah 85%, maka hentikan ekspansi tree. Leaf decision threshold (LDT) / θn Jika banyaknya anggota himpunan data pada suatu node lebih kecil dari threshold θn, hentikan ekspansi tree. Sebagai contoh: sebuah himpunan data memiliki 600 contoh dengan θn adalah 2%. Jika jumlah data contoh pada sebuah node lebih kecil dari 12 (2% dari 600), maka hentikan ekspansi tree. D. Akurasi Akurasi adalah nilai derajat kedekatan dari pengukuran kuantitas untuk nilai sebenarnya (true). Nilai akurasi didapatkan dari hasil rule yang dihasikan dari perhitungan decision tree kemudian di uji coba kan pada data testing dan menghasilkan derajat keakuratan dari rule tersebut setelah di uji coba kan pada data testing. Berikut ini rumus dari nilai accuracy :
Rumus accuracy : (3) Dimana: TP : True Positive TN : True Negative FP : False positive FN : False Negative Yang dimaksud dengan True Positive adalah jumlah data hasil bentukan rule yang terkena diabetes yang sama dengan data testing yang juga terkena diabetes. Disini ditandai dengan nilai 1. Jadi pada data testing hasil diagnosanya 1 dan pada data diagnose hasi pembentukan rule juga bernilai 1. Yang dimaksud dengan True Negative adalah jumlah data hasil bentukan rule yang tidak terkena tidak diabetes yang sama dengan data testing yang juga tidak terkena diabetes. Disini ditandai dengan nilai 0. Jadi pada data testing hasil diagnosanya 0 dan pada data diagnose hasil pembentukan rule juga bernilai 0. Jadi nilai true positive dan true negative adalah data pada pembentukan rule sama dengan data testing yang diujikan. Kemudian yang dimaksud dengan False Positive adalah jumlah data hasil bentukan rule yang terkena diabetes dan data testing yang tidak terkena diabetes. Dan False Negative adalah jumlah data hasil bentukan rule yang tidak terkena diabetes dengan data testing yang terkena diabetes. III. UJI COBA Perancangan data yang telah dibuat dan diimplementasikan kedalam sebuah perangkat perlu dilakukan uji coba. Uji coba pada klasifikasi decision tree ini mencakup uji coba proses pembentukan himpunan fuzzy, pembentukan tree, pembentukan hasil testing dan perhitungan akurasi. Uji coba ini akan melakukan evaluasi tingkat akurasi kebenaran rule nya. Pada uji coba ini akan dilakukan uji coba data sample dengan proporsi data testing sebesar 256 objek dan 512 objek data training, dengan menggunakan 3-fold cross validation. Dari data yang tersedia akan dilakukan uji coba untuk mengetahui pengaruh proses pembentukan fuzzy, pruning, nilai Fuzziness control threshold (FCT) atau θr dan Leaf decision threshold (LDT) atau θn terhadap besarnya akurasi. Dan uji coba tersebut dimulai dari pembagian himpunan fuzzy menurut referensi standart dan kuartl, kemudian dilakukan proses pruning atau tidak. Jika akan dilakukan proses pruning makan harus memasukkan nilai Fuzziness control threshold (FCT) atau θr dan Leaf decision threshold (LDT) atau θn . Dengan menguji nilai dari Fuzziness control threshold (FCT) atau θr sebanyak 6 yaitu 75%, 80%, 85%, 90%, 95%, dan 98%, dan memasukkan nilai Leaf decision threshold (LDT) atau θn sebanyak 4 yaitu 3%, 5%, 8%, dan 10%.
TUGAS AKHIR PERIODE JANUARI 2011
Tabel 1 Rata-rata uji coba tanpa pruning Referensi standard Uji Coba Tanpa Pruning Referensi standard Akurasi 69,14 % Rule yang dihasilkan 177 rule Waktu 0,5620 detik Tabel 2.Rata-rata uji coba tanpa pruning Referensi data kuartil Uji Coba Tanpa Pruning Referensi data kuartil Akurasi 64,45 % Rule yang dihasilkan 229 rule Waktu 0,7237 detik Tabel 3 Rata-rata asil uji coba waktu dengan pruning dari referensi standard
θr 75 % 80 % 85 % 90 % 95 % 98 %
3% 0.0783 0.2293 0.1150 0.1253 0.1510 0.2240
Waktu dalam detik θn 5% 8% 0.0467 0.0310 0.0413 0.0310 0.0733 0.0473 0.0887 0.0727 0.1040 0.0727 0.0940 0.1093
10 % 0.0420 0.0317 0.0520 0.0620 0.0727 0.0783
A. Uji Coba Tanpa Pruning dengan referensi standard Uji coba pada data training 512 data sample dan 256 data sample untuk testing dan pembentukan fuzzy menurut referensi standard. Hasil uji coba pada tabel 1. Dari hasil uji coba yang dilakukan tanpa pruning dengan menggunakan referensi data kuartil menghasilkan rule dengan kedalaman yang paling dalam adalah 8 node dan memiliki leaf sebanyak 177 leaf. Dari hasil yang dilakukan membutuhkan waktu 0,6560 detik dengan tingkat akurasi 69,14 %. Salah satu rule yang dihasilkan yaitu pada rule yang pertama adalah IF OGTT rendah AND IPOST rendah AND TIME rendah AND D rendah AND T rendah THEN TIDAK DIABETES. B. Uji Coba Tanpa Pruning dengan referensi data kuartil Uji coba pada data training 512 data sample dan 256 data sample untuk testing dan pembentukan fuzzy menurut referensi data kuartil. Hasil uji coba pada tabel 2. Dari hasil uji coba yang dilakukan tanpa pruning dengan menggunakan referensi data kuartil dihasilkan rule dengan kedalaman yang paling dalam adalah 8 node dan memiliki leaf sebanyak 229 leaf. Dari hasil yang dilakukan membutuhkan waktu 0,7030 detik dengan tingkat akurasi 64,45 %. Salah satu rule yang dihasilkan yaitu pada rule yang pertama adalah IF OGTT rendah AND AGE rendah AND BMI rendah THEN TIDAK DIABETES. Dari uji coba yang kedua mengalami penurunan tingkat akurasi, jumlah rule yang dihasilkan semakin banyak sehingga waktu yang digunakan juga semakin tinggi. Maka percobaan pertama lebih baik dari hasil uji coba yang kedua.
5
Tabel 4 Rata-rata hasil uji coba jumlah rule dengan pruning dari referensi standard
θr 75 % 80 % 85 % 90 % 95 % 98 %
3% 30 30 47 56 60 67
Jumlah rule θn 5% 8% 19 10 19 10 29 18 36 24 38 26 41 26
10 % 10 10 18 24 26 26
Tabel 5 Rata-rata hasil uji coba akurasi dengan pruning dari referensi standard
θr 75 % 80 % 85 % 90 % 95 % 98 %
3% 72,66 72,66 71,88 71,88 71,88 71,88
Akurasi θn 5% 77,34 77,34 77,73 77,73 77,73 77,73
8% 78,52 78,52 78,91 78,91 78,91 78,91
10 % 78,52 78,52 78,91 78,91 78,91 78,91
C. Uji Coba dengan Pruning dengan referensi standar Pada subbab ini akan dilakukan uji coba pada data training 512 data sample dan 256 data sample untuk testing dan pembentukan fuzzy menurut referensi standard. Dengan menggunakan besarnya Fuzziness control threshold (FCT) / θr : 75%, 80%, 85%, 90%, 95%, dan 98%. Sedangkan untuk nilai Leaf decision threshold (LDT) / θn : 3%, 5%, 8%, dan 10%. Dari hasil uji coba yang dilakukan dengan pruning dengan menggunakan referensi data standard dihasilkan rule dengan kedalaman yang paling dalam adalah 8 node dan memiliki leaf menurut tabel 4. Dari hasil yang dilakukan membutuhkan waktu pada tabel 3 dengan tingkat akurasi pada tabel 4. Salah satu rule yang dihasilkan yaitu pada θr : 98 dan θn : 10 pada rule yang pertama adalah IF OGTT rendah AND T rendah AND TIME rendah AND D rendah THEN TIDAK DIABETES. Dari uji coba yang ketiga akurasi tertinggi mencapai 78,91 % berarti pada uji coba ketiga ini mengalami peningkatan tingkat akurasi, jumlah rule yang dihasilkan semakin sedikit sehingga waktu yang digunakan juga semakin sedikit. Maka percobaan ketiga lebih baik dari hasil uji coba yang pertama dan yang kedua. D. Uji Coba dengan Pruning dengan referensi data kuartil uji coba pada data training 512 data sample dan 256 data sample untuk testing dan pembentukan fuzzy menurut referensi data kuartil. Dengan menggunakan besarnya Fuzziness control threshold (FCT) / θr : 75%, 80%, 85%, 90%, 95%, dan 98%. Sedangkan untuk nilai Leaf decision threshold (LDT) / θn : 3%, 5%, 8%, dan 10%.
6
TUGAS AKHIR PERIODE JANUARI 2011
Tabel 6 Rata-rata hasil uji coba waktu dengan pruning dari referensi data kuartil
θr 75 % 80 % 85 % 90 % 95 % 98 %
3% 0.0830 0.0890 0.2447 0.1147 0.1457 0.1247
Waktu dalam detik θn 5% 8% 0.0520 0.0623 0.0417 0.0417 0.0683 0.0473 0.0990 0.0470 0.0830 0.0627 0.0990 0.0680
10 % 0.0367 0.0367 0.0420 0.0467 0.0570 0.0783
Tabel 7 Rata-rata hasil uji coba jumlah rule dengan pruning dari referensi data kuartil
θr 75 % 80 % 85 % 90 % 95 % 98 %
θr 75% 80% 85% 90% 95% 98%
3% 27 29 38 50 50 56
3% 1 2 0.0783 0.0830 0.2293 0.0890 0.1150 0.2447 0.1253 0.1147 0.1510 0.1457 0.2240 0.1247
Jumlah rule θn 5% 8% 21 17 21 17 24 19 30 23 30 23 32 25
Waktu (detik) θn
5% 1 2 0.0467 0.0520 0.0413 0.0417 0.0733 0.0683 0.0887 0.0990 0.1040 0.0830 0.0940 0.0990
Tabel 8 Rata-rata hasil uji coba akurasi dengan pruning dari referensi kuartil
θr 75 % 80 % 85 % 90 % 95 % 98 %
3% 73,44 73,05 73,05 73,05 73,05 73,05
Akurasi θn 5% 74,22 74,22 74,22 74,22 74,22 74,22
Uji Coba Tanpa Pruning Referensi standard dan Referensi Kuartil Akurasi Rule yang Waktu (%) dihasilkan (detik) (rule) 1 2 1 2 1 2 69,14 64,45 177 229 0,5620 0,7237
10 % 13 13 15 17 17 19
10% 1 2 0.0420 0.0367 0.0317 0.0367 0.0520 0.0420 0.0620 0.0467 0.0727 0.0570 0.0783 0.0783
10 % 76,95 76,95 76,95 76,95 76,95 76,95
Tabel 9 Rata-rata uji coba tanpa pruning
Keterangan : 1. Referensi standard 2. Referensi Kuartil
Tabel 10 Rata-rata Hasil Uji coba dengan pruning
8% 1 2 0.0310 0.0623 0.0310 0.0417 0.0473 0.0473 0.0727 0.0470 0.0727 0.0627 0.1093 0.0680
8% 76,95 76,95 76,95 76,95 76,95 76,95
Jumlah aturan (rule) θn 3% 5% 8% 10% 1 2 1 2 1 2 1 2 30 27 19 21 10 17 10 13 30 29 19 21 10 17 10 13 47 38 29 24 18 19 18 15 56 50 36 30 24 23 24 17 60 50 38 30 26 23 26 17 67 56 41 32 26 35 26 19
3% 1 2 72,66 73,44 72,66 73,05 71,88 73,05 71,88 73,05 71,88 73,5 71,88 73,5
Akurasi (%) θn 5% 8% 1 2 1 2 77,34 74,22 78,52 76,95 77,34 74,22 78,52 76,95 77,73 74,22 78,91 76,95 77,73 74,22 78,91 76,95 77,73 74,22 78,91 76,95 77,73 74,22 78,91 76,95
10% 2 1 78,52 76,95 78,52 76,85 78,91 76,95 78,91 76,95 78,91 76,95 78,91 76,95
Keterangan : 1. Referensi standard 2. Referensi Kuartil Dari hasil uji coba yang dilakukan dengan pruning dengan menggunakan referensi data kuartil dihasilkan rule dengan kedalaman yang paling dalam adalah 5 node dan memiliki leaf menurut tabel 7. Dari hasil yang dilakukan membutukan waktu pada tabel 6 dengan tingkat akurasi pada tabel 8. Salah satu rule yang dihasilkan yaitu pada θr : 98 dan θn : 10 pada rule yang pertama adalah IF OGTT rendah AND AGE rendah AND BMI rendah THEN TIDAK DIABETES. Dari uji coba yang ketiga akurasi tertingi mencapai 76,95 %, hasil yang sama yang didapatkan pada uji coba yang pernah dilakukan oleh vi Vincent Sigillito. Dari keseluruhan hasil uji coba, nilai θr dan θn sangat berpengaruh terhadap jumlah aturan yang dihasilkan, nilai θr yang terlalu tinggi akan menyebabkan turunnya nilai akurasi. Di lain pihak, nilai θn yang terlalu rendah juga dapat menyebabkan akurasi menurun. Pada keseluruhan uji coba nilai akurasi tertinggi pada percoban ketiga yaitu 78,91% . Maka percobaan ketiga lebih baik dari hasil uji
coba yang pertama, kedua dan keempat. Dari keseluruhan uji coba dapat dilihat pada tabel 9 dan 10 IV. SIMPULAN DAN SARAN Berdasarkan aplikasi yang telah dibuat beserta uji coba yang telah dilakukan, maka dapat ditarik kesimpulan sebagai berikut : a. Dengan pruning dihasilkan tingkat akurasi yang lebih tinggi dari pada tidak memakai pruning, dari 69,14% ke 78,91%. b. Pembagian data himpunan fuzzy dengan menggunakan referensi data standart dengan pruning memiliki tingkat akurasi lebih tinggi 78,91% dibandingkan dengan referensi data kuartil 76,95%. c. Semakin tinggi θr dan θn, semakin tinggi tingkat akurasi.
TUGAS AKHIR PERIODE JANUARI 2011
Perlu dibuat proses pembentukan fungsi fuzzy yang lain selain menggunkan model trapezoidal, seperti model segitiga, kurva S, dan kurva PI agar dapat diketahui pengaruh fungsi keanggotaan fuzzy terhadap akurasi. REFERENSI [1] http://www.infopenyakit.com/2008/03/penyakitdiabetes-mellitus-dm.html. Diakses tanggal 18 Maret 2010 [2] J. Han and M. Kamber. Data Mining Concepts and Techniques. Simon Fraser University. USA: Morgan Kaufman, 2006. [3] Sigillito,Vincent. Pima Indians Diabetes Data Set.www.archive.ics.uci.edu/ml/datasets. Diakses tanggal 3 Maret 2010. [4] The Inter-University Centre for Astronomy and Astrophysics, Pune, India .Pima Indians Diabetes Database.http://meghnad.iucaa.ernet.in/~nspp/DBNN_ html/node8.html . Diakses tanggal 12 Nopember 2010 [5] Pang-Ning Tan, M. Steinbach, V. Kumjar, Introduction to Data Mining, Pearson Education, Inc., Boston, 2006. [6] E Cox. Fuzzy Modeling and Algorithms for Data mining and Exploration. USA: Academic Press. 2005. [7] Y. Yuan dan Shaw M J. Induction of fuzzy decision trees, Fuzzy Sets and Systems Vol. 69. 1995. [8] G. Liang. A Comparative Study of Three Decision Tree algorithms: ID3, Fuzzy ID3 and Probabilistic Fuzzy ID3. Informatics & Economics Erasmus University Rotterdam Rotterdam, the Netherlands, 2005. [9] Romansyah.F, I. S. Sitanggang, S. Nurdiati.Fuzzy Decision Tree dengan Algoritme ID3 pada Data Diabetes .Internetworking Indonesia Journal.2009. [10] I-Jen Chianga and Jane Yung-jen Hsu. Fuzzy classification trees for data analysis. Department of Computer Science and Information Engineering, National Taiwan University, Taipei, Taiwan, 2001. [11] Stoppler.Melissa Conrad, MD. Low Blood Pressure and Stress. http://www.medicinenet.com/low_blood_pressure/artic le.htm . Diakses tanggal 18 Maret 2010 [12] Fu L. 1994. Neural Network In Computer Intelligence. Singapura : McGraw Hill.
7
8
TUGAS AKHIR PERIODE JANUARI 2011