1
PENDAHULUAN Latar Belakang Organisasi Kesehatan Dunia (WHO) memperkirakan, bahwa 177 juta penduduk dunia mengidap penyakit diabetes mellitus atau biasa disingkat diabetes. Jumlah ini akan terus meningkat hingga melebihi 300 juta pada tahun 2025. Dr Paul Zimmet, direktur dari International Diabetes Institute (IDI) di Victoria, Australia, meramalkan bahwa diabetes akan menjadi epidemi yang paling dahsyat dalam sejarah manusia. Perkembangan yang cepat dalam teknologi pengumpulan dan penyimpanan data telah memudahkan suatu organisasi untuk mengumpulkan sejumlah data berukuran besar. Kondisi ini terjadi pada sebuah rumah sakit yang mempunyai beribu-ribu record data pasien dan jenis penyakitnya, misalnya kumpulan data diabetes yang terkait dengan hasil pemeriksaan laboratorium dari pasien rumah sakit. Data diabetes berukuran besar tersebut seringkali dibiarkan menggunung tanpa digunakan secara maksimal. Data mining merupakan proses ekstraksi informasi atau pola penting dalam basis data berukuran besar (Han & Kamber 2006). Pada penelitian ini akan diterapkan salah satu teknik dalam data mining, yaitu klasifikasi terhadap data diabetes. Klasifikasi merupakan salah satu metode dalam data mining untuk memprediksi label kelas dari suatu record dalam data. Metode yang digunakan dalam penelitian ini yaitu metode klasifikasi dengan probabilistic fuzzy decision tree (PFDT). Penggunaan teknik fuzzy memungkinkan melakukan prediksi suatu objek yang dimiliki oleh lebih dari satu kelas. Dengan menerapkan data mining pada data diabetes diharapkan dapat ditemukan aturan klasifikasi yang dapat digunakan untuk memprediksi potensi seseorang terserang penyakit diabetes. Pada penelitian sebelumnya digunakan metode fuzzy decision tree yang dilakukan oleh Firat Romansyah (2007) dan menghasilkan nilai akurasi yang cukup tinggi yaitu di atas 90%. Metode probabilistic fuzzy decision tree diharapkan dapat meningkatkan nilai akurasi, serta membandingkan hasil klasifikasi dengan metode fuzzy decision tree (FDT).
Tujuan Penelitian Tujuan penelitian ini adalah: 1 Menerapkan teknik klasifikasi data mining menggunakan metode probabilistic fuzzy decision tree. 2 Membandingkan nilai akurasi antara metode fuzzy decision tree dan probabilistic fuzzy decision tree. Ruang Lingkup Penelitian Ruang lingkup penelitian dibatasi pada: 1 Data yang digunakan adalah data pemeriksaan lab pasien rumah sakit yang meliputi GLUN (Glukosa Darah Puasa), GPOST (Glukosa Darah 2 Jam PP), Tg (Trigliserida), HDL (Kolestrol HDL), serta diagnosa pasien berdasarkan nilai GLUN, GPOST, HDL, dan TG. 2 Teknik yang digunakan adalah salah satu teknik dalam data mining yaitu teknik klasifikasi dengan menggunakan metode decision tree. Untuk menangani ketidakpastian dan ketidaktepatan, pendekatan fuzzy digunakan. 3 Penelitian dilakukan dengan mengimplementasikan Probabilistic Fuzzy ID3 (Iterative Dichotomiser 3) Decision Tree. Manfaat Penelitian Penelitian ini diharapkan dapat membuktikan teori yang menyatakan bahwa teknik probabilistic fuzzy decision tree lebih baik nilai akurasinya dibandingkan dengan teknik fuzzy decision tree. Penelitian ini juga diharapkan menjadi dasar untuk memilih teknik apa yang akan digunakan dalam membangun aplikasi data mining yang lebih besar, khususnya untuk teknik klasifikasi.
TINJAUAN PUSTAKA Data Mining Data mining merupakan proses ekstraksi informasi data berukuran besar (Han & Kamber 2006). Dari sudut pandang analisis data, data mining dapat diklasifikasi menjadi dua kategori, yaitu descriptive data mining dan predictive data mining. Descriptive data mining menjelaskan sekumpulan data dalam cara yang lebih ringkas. Ringkasan tersebut menjelaskan sifat-sifat yang menarik dari data. Predictive data mining menganalisis data dengan tujuan mengkonstruksi satu atau sekumpulan model dan melakukan prediksi perilaku dari kumpulan data baru.
2
Klasifikasi Klasifikasi termasuk ke dalam kategori predictive data mining. Klasifikasi adalah proses menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat digunakan untuk mengetahui kelas atau objek yang memiliki label kelas yang tidak diketahui. Model yang diturunkan didasarkan pada analisis dari data training (Han & Kamber 2006). Proses klasifikasi dibagi menjadi dua fase yaitu learning dan testing. Pada fase learning, sebagian data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase testing, model yang sudah terbentuk diuji dengan sebagian data lainnya (test set) untuk mengetahui akurasi dari model tersebut. Jika akurasinya mencukupi maka model tersebut dapat dipakai untuk prediksi kelas data yang belum diketahui (Han & Kamber 2006). Himpunan Fuzzy Konsep logika fuzzy pertama kali diperkenalkan oleh Prof. Lotfi A Zadeh dari Universitas California pada bulan Juni 1965. Logika fuzzy merupakan generalisasi dari logika klasik yang hanya memiliki dua nilai keanggotaan 0 dan 1. Dalam logika fuzzy nilai kebenaran suatu pernyataan berkisar dari sepenuhnya benar ke sepenuhnya salah. Dengan teori himpunan fuzzy suatu objek dapat menjadi anggota dari banyak himpunan dengan derajat keanggotaan yang berbeda dalam masing-masing himpunan. Derajat keanggotaan menunjukan nilai keanggotaan suatu objek pada suatu himpunan. Nilai keanggotaan ini berkisar antara 0 sampai 1 (Cox 2005).
memetakan setiap elemen dari X ke nilai derajat keanggotaan (Kantardzic 2003). Contoh bentuk fungsi keanggotaan adalah trapezoidal dan gaussian. Fungsi keanggotaan trapezoidal dispesifikasi oleh empat parameter (a, b, c, d) sebagai berikut.
0 ; x ≤ a ( x − a ) /(b − a ) ; a ≤ x ≤ b µ A ( x ) = 1 ; b ≤ x ≤ c (d − x ) /( d − c ) ; c ≤ x ≤ d 0 ; d ≤ x Fungsi keanggotaan gaussian dispesifikasikan oleh dua parameter ( dan c ) sebagai berikut.
µA x = e
-
x - c2 2σ2
Bentuk fungsi keanggotaan trapezoidal dapat dilihat pada Gambar 1 (Kantardzic 2003). Bentuk fungsi keanggotaan gaussian dapat dilhat pada Gambar 2. 1
a
b
c
d
Gambar 1 Fungsi keanggotaan trapezoidal.
c
Fungsi Keanggotaaan
Gambar 2 Fungsi keanggotaan gaussian.
Inti dari himpunan fuzzy adalah fungsi keanggotaan (membership function). Fungsi keanggotaan menggambarkan hubungan antara domain himpunan fuzzy dengan nilai derajat keanggotaan (Cox 2005).
Linguistic Variable (Peubah Linguistik)
Jika X adalah kumpulan objek yang ditandai secara umum oleh x, maka himpunan fuzzy A pada X didefinisikan sebagai berikut: A=
{(x , µ A ( x ) ) | x ∈ X }
dimana µA(x) adalah fungsi keanggotaan untuk himpunan fuzzy A. Fungsi keanggotaan
Linguistic variable merupakan peubah verbal yang dapat digunakan untuk memodelkan pemikiran manusia yang diekspresikan dalam bentuk himunan fuzzy. Peubah linguistik dikarakterisasi oleh quintaple (x, T(x), X, G, M) dengan x adalah nama peubah, T(x) adalah kumpulan dari linguistic term, G adalah aturan sintaks, M adalah aturan semantik yang bersesuaian dengan setiap nilai peubah linguistik. Sebagai contoh, jika umur diinterpretasikan sebagai peubah linguistik, maka himpunan dari linguistik term T(umur) menjadi:
3
T(umur) = {sangat muda, muda, tua} Setiap term dalam T(umur) dikarakterisasi oleh himpunan fuzzy, X menunjukkan nilai interval x. Aturan semantik menunjukan fungsi keanggotaan dari setiap nilai pada himpunan linguistic term (Cox 2005). Linguistic Term Linguistic term didefinisikan sebagai kumpulan himpunan fuzzy yang didasarkan pada fungsi keanggotaan yang bersesuaian dengan peubah linguistik (Au & Chan 2001).
Jika kumpulan dari record yang terdiri dari kumpulan atribut , dengan . Atribut dapat berupa atribut numerik atau kategorikal. Untuk setiap record d elemen D, menotasikan nilai i dalam record d untuk atribut . Kumpulan linguistic term dapat didefinisikan pada seluruh domain dari atribut kuantitatif. menotasikan linguistic term yang berasosiasi dengan atribut , sehingga himpunan fuzzy dapat didefinisikan untuk setiap . ,
Himpunan fuzzy didefinisikan sebagai: dom
!"#$"
jika diskret
% dom
!"# $"
jika kontinu
$"
$"
untuk semua & ' () , dom & & .
dengan
Derajat keanggotaan dari nilai & ' dom dengan beberapa linguistic term dinotasikan oleh *"# . Sistem Inferensi Fuzzy (Fuzzy Inference System) Sistem inferensi fuzzy adalah suatu framework yang didasarkan pada konsep himpunan fuzzy, fuzzy if-then rules, dan fuzzy reasoning. Salah satu metode inferensi fuzzy yang paling umum digunakan adalah metode sistem inferensi fuzzy Mamdani. Struktur dasar dari sistem inferensi fuzzy terdiri dari tiga komponen yaitu (Jang et al 1997): 1 basis aturan, terdiri dari aturan-aturan fuzzy, 2 basis data / kamus data, mendefinisikan fungsi keanggotaan yang digunakan pada aturan fuzzy, dan 3 mekanisme penalaran, melakukan proses inferensi pada aturan dan fakta yang
diberikan untuk memperoleh output atau kesimpulan. Pohon Keputusan Pohon keputusan merupakan suatu pendekatan yang sangat populer dan praktis dalam machine learning untuk menyelesaikan permasalah klasifikasi. Metode ini digunakan untuk memperkirakan nilai diskret dari fungsi target, yang mana fungsi pembelajaran direpresentasikan oleh sebuah pohon keputusan (Liang 2005). Pohon keputtusan sama dengan satu himpunan aturan IF…THEN. Setiap path dalam tree dihubungkan dengan sebuah aturan, yang mana premis terdiri dari sekumpulan node-node yang ditemui, dan kesimpulan dari aturan terdiri dari kelas yang terhubung dengan leaf dari path (Marsala 1998). Fuzzy Decision Tree (FDT) Fuzzy decision tree memungkinkan untuk menggunakan nilai-nilai numeric-symbolic selama konstruksi atau saat mengklarifikasikan kasus-kasus baru. Manfaat dari teori himpunan fuzzy dalam decision tree ialah meningkatkan kemampuan dalam memahami decision tree ketika menggunakan atribut-atribut kuantitatif. Bahkan, dengan menggunakan teknik fuzzy dapat meningkatkan ketahanan saat dilakukan klasifikasi kasus-kasus baru (Marsala 1998). Fuzzy ID3 Decision Tree
Saat ini ID3 (Iterative Dichotomiser 3) adalah algoritme yang paling banyak digunakan untuk membuat suatu decision tree. Algoritme ini pertama kali diperkenalkan oleh Quinlan, menggunakan teori informasi untuk menentukan atribut mana yang paling informatif, namun ID3 sangat tidak stabil dalam melakukan penggolongan berkenaan dengan gangguan kecil pada data latihan. Logika fuzzy dapat memberikan suatu peningkatan untuk dalam melakukan penggolongan pada saat pelatihan (Liang 2005). Algoritme fuzzy ID3 merupakan algoritme yang efisien untuk membuat suatu fuzzy decision tree. Algoritme fuzzy ID3 adalah sebagai berikut (Liang 2005): 1. Create a Root node that has a set of fuzzy data with membership value 1
4
2. If a node t with a fuzzy set of data D satisfies the following conditions, then it is a leaf node and assigned by the class name. • The proportion of a class Ck is greater than or equal to Өx,
| D Ci | ≥ θr |D| •
the number of a data set is less than θn • there are no attributes for more classifications 3. If a node D does no satisfy the above conditions, then it is not a leaf-node. And an new sub-node is generated as follow: • For Ai’s (i=1,…, L) calculate the information gain, and select the test attribute Amax that maximizes them. • Divide D into fuzzy subset D1 , ..., Dm according to Amax , where the membership value of the data in Dj is the product of the membership value in D and the value of Fmax,j of the value of Amax in D. • Generate new nodes t1 , …, tm for fuzzy subsets D1 , ... , Dm and label the fuzzy sets Fmax,j to edges that connect between the nodes tj and t • Replace D by Dj (j=1, 2, …, m) and repeat from 2 recursively.
Probabilistic Fuzzy Decision Tree (PFDT) Probabilistic fuzzy decision tree merupakan metode pengembangan dari metode sebelumnya yaitu fuzzy decision tree. Metode PFDT memperbaiki fungsi keanggotaan untuk proses learning pada metode FDT. Dengan adanya perbaikan pada membership function maka diharapkan nilai akurasi yang diperoleh oleh metode PFDT lebih tinggi dibandingkan metode FDT.
Algoritme probabilistic fuzzy ID3 adalah sebagai berikut (Liang 2005): 1. Create a Root node that has a set of fuzzy data with membership value 1 that fits the condition of well-defined sample space.
2. Execute the fuzzy ID3 algorithm from step 2 to end
Statistical Fuzzy Entropy (SFE) dan Statistical Information Gain Information gain adalah suatu nilai statistik yang digunakan untuk memilih atribut tree dan yang akan mengekspansi menghasilkan node baru pada algoritme ID3. Suatu entropy dipergunakan untuk mendefinisikan nilai information gain. Entropy dirumuskan sebagai berikut: +, - 5 $ . /$ 0 123 4 /$
(1)
dengan /$ adalah rasio dari kelas Ci pada himpunan contoh S = {x1,x2,...,xk}.
/$
: 7;< 67 ' 89
(2)
=
Untuk menghitung nilai information gain digunakan persamaan sebagai berikut: >- ? +- . 'ValuesA
dengan bobot B$
@=" @ @=@
@=" @ @=@
+- (3)
adalah rasio dari data
dengan atribut v pada himpunan contoh. Pada probabilistic fuzzy ID3, statistical fuzzy entropy (SFE) dirumuskan sebagai berikut: C,D . 8GL E F*AG H 123 4 FEI*AG HJKK (4) / ? $ *A H$ MH$ EI*A HJ
(5)
Setelah SFE diterapkan pada algoritme probabilistic fuzzy ID3 (PFID3) maka didapatkan statistical fuzzy decision tree. Untuk menentukan statistical fuzzy information gain dari statistical information dilakukan penggantian entropy gain menggunakan rumus berikut: >- ? +,D - . $
@=9 @ @=@
+,D -$
(6)
Untuk meyakinkan kondisi dari well-defined sample space, jumlah dari membership function harus sama dengan 1. Jika jumlah membership function sama dengan 1, maka kita telah memperbaiki membership function dari algoritme fuzzy ID3. Threshold
Jika pada proses learning dari FDT dihentikan sampai semua data contoh pada masing-masing leaf-node menjadi anggota sebuah kelas, akan dihasilkan akurasi yang
5
rendah. Oleh karena itu untuk meningkatkan akurasinya, proses learning harus dihentikan lebih awal atau melakukan pemotongan tree secara umum. Untuk itu diberikan 2 (dua) buah threshold yang harus dipenuhi jika tree akan diekspansi, yaitu:
data tidak dilakukan, karena tahapan ini telah dilakukan pada penelitian sebelumnya. Dalam penelitian ini, percobaan dibagi ke dalam tiga kelompok seperti dalam Tabel 1.
Fuzziness control threshold (FCT) / Jika proporsi dari himpunan data dari kelas Ck lebih besar atau sama dengan nilai threshold , maka hentikan ekspansi tree. Sebagai contoh: jika pada sebuah subdataset rasio dari kelas 1 adalah 90%, maka kelas 2 adalah 10% dan adalah 85%, maka hentikan ekspansi tree. Leaf decision threshold (LDT) / Jika banyaknya anggota himpunan data pada suatu node lebih kecil dari threshold , hentikan ekspansi tree. Sebagai contoh: sebuah himpunan data memiliki 600 contoh dengan adalah 2%. Jika jumlah data contoh pada sebuah node lebih kecil dari 12 (2% dari 600), maka hentikan ekspansi tree.
Perangkat keras yang digunakan berupa notebook dengan spesifikasi:
Lingkup Pengembangan Sistem
• processor: Intel Core 2 Duo 2.0 GHz, • memori: 1 GB, dan • harddisk: 120 GB. Perangkat lunak yang digunakan yaitu: • sistem operasi: Window XP, • Matlab 7.0.1 sebagai bahasa pemrograman, dan • Microsoft Excel 2007 sebagai tempat penyimpanan data. Tabel 1 Kelompok percobaan Algoritme Kelompok yang digunakan FDT
Fuzzy ID3
s-shaped, gaussian, pshaped
PFDT(1)
Probabilistic Fuzzy ID3
triangle, trapezoid
PFDT(2)
Probabilistic Fuzzy ID3
s-shaped, gaussian, pshaped
K-fold Cross Validation K-fold cross validation dilakukan untuk membagi training set dan test set. K-fold cross validation mengulang k-kali untuk membagi sebuah himpunan contoh secara acak menjadi k subset yang paling bebas, setiap ulangan disisakan satu subset untuk pengujian dan subset lainnya untuk pelatihan (Fu 1994).
Fungsi Keanggotaan
METODE PENELITIAN Data Penelitian ini menggunakan data diabetes yang merupakan hasil pemeriksaan laboratorium pasien dari sebuah rumah sakit. Data hasil pemeriksaan lab pasien yang digunakan dalam penelitian ini meliputi GLUN (Glukosa Darah Puasa), GPOST (Glukosa Darah 2 Jam Pasca Puasa), HDL (Kolesterol HDL), TG (Trigliserida), serta diagnosa pasien berdasarkan nilai GLUN, GPOST, HDL dan TG. Nilai GLUN, GPOST, HDL, TG dinyatakan dalam satuan Mg/DL. Diagnosa pasien ditransformasi menjadi dua kategori, yaitu negatif diabetes yang direpresentasikan dengan angka 1 dan positif diabetes yang direpresentasikan dengan angka 2. Total data yang digunakan dalam penelitian ini berjumlah 290 record. Metode Tahapan penelitian yang digunakan dapat dilihat pada Gambar 3. Proses pembersihan
HASIL DAN PEMBAHASAN Data yang digunakan dalam penelitian ini menggunakan data dari penelitian sebelumnya (Romansyah 2007). Data ini terdiri dari 6 buah kolom yaitu, no.RM (nomor rekam medis/MRN), GLUN, GPOST, HDL, TG dan diagutama (hasil pemeriksaan lab / diagnosis). Transformasi Data Pada penelitian ini, teknik data mining yang digunakan adalah fuzzy decision tree (FDT) dan probabilistic fuzzy decision tree (PFDT), oleh karena itu data yang digunakan harus direpresentasikan ke dalam bentuk himpunan fuzzy. Dari 5 (lima) atribut yang digunakan pada penelitian ini 4 diantaranya merupakan atribut yang kontinu, yaitu GLUN, GPOST, HDL, dan TG. Berdasarkan hasil laboratorium range normal untuk atribut GLUN, GPOST, HDL, dan TG diperlihatkan pada Tabel 2.