1
PENDAHULUAN Latar Belakang Hasil survey Organisasi Kesehatan Dunia (WHO) menyatakan jumlah penderita kencing manis (diabetes melitus) di Indonesia sekitar 17 juta orang (8,6% dari jumlah penduduk) atau menduduki urutan terbesar ke-4 setelah India, Cina dan Amerika Serikat. Berdasarkan hal tersebut, perlu kiranya dilakukan penelitian yang mengarah pada pembuatan aplikasi yang dapat mendeteksi timbulnya penyakit diabetes, sehingga dapat menurunkan jumlah penderita diabetes. Salah satu teknik yang dapat digunakan untuk melakukan penelusuran pada data historis untuk mengidentifikasi pola dan memprediksi trend yaitu data mining. Data mining merupakan proses ekstraksi informasi atau pola dalam basis data yang berukuran besar. (Han & Kamber 2001). Teknik data mining yang digunakan, yaitu klasifikasi. Klasifikasi merupakan salah satu metode dalam data mining untuk memprediksi label kelas yang tidak diketahui. Konsep fuzzy yang diterapkan dalam klasifikasi dapat lebih baik dalam menangani nilai numerik, karena himpunan fuzzy ”memperhalus” batasan yang tegas. Data diabetes bersifat numerik sehingga dapat diterapkan teknik data mining dengan konsep fuzzy. Teknik klasifikasi yang digunakan, yaitu klasifikasi dengan metode derajat keanggotaan dalam fuzzy. Prinsip dasar dari metode derajat keanggotaan dalam fuzzy yaitu menghitung nilai kemenarikan antara dua atau lebih linguistic term. Perhitungan nilai kemenarikan dilakukan dengan menggunakan analisis residual. Dengan menerapkan data mining diharapkan dapat ditemukan aturan atau fungsi klasifikasi untuk memprediksi potensi seseorang terserang penyakit diabetes. Tujuan Penelitian Tujuan dari penelitian ini adalah : 1. Menerapkan salah satu metode data mining, yaitu teknik klasifikasi menggunakan metode derajat keanggotaan dalam fuzzy. 2. Menemukan aturan-aturan klasifikasi pada data diabetes untuk memprediksi apakah seseorang dinyatakan positif atau negatif diabetes berdasarkan data hasil pemeriksaan laboratorium.
Ruang Lingkup Penelitian Penelitian ini mencakup penerapan teknik klasifikasi dengan menggunakan derajat keanggotaan dalam fuzzy pada data hasil pemeriksaan laboratorium dan data catatan medis rawat inap dari tahun 2004 sampai 2005. Jumlah atribut dalam penelitian ini yaitu lima buah atribut yang terdiri dari empat atribut kuantitatif dan satu atribut kategorikal sebagai atribut kelas target. Manfaat Penelitian Dengan adanya suatu aplikasi yang dapat digunakan untuk memprediksi potensi penyakit diabetes, maka terjadinya penyakit ini pada seseorang dapat diprediksi sedini mungkin sehingga dapat dilakukan tindakan antisipasi.
TINJAUAN PUSTAKA Knowledge Data Discovery (KDD) Knowledge discovery in databases (KDD) adalah proses menemukan informasi yang berguna dan pola-pola yang ada dalam data (Goharian & Grossmann 2003). KDD merupakan sebuah proses yang terdiri dari serangkaian proses iteratif yang terurut dan data mining merupakan salah satu langkah dalam KDD (Han & Kamber 2001). Pada Gambar 1 dapat dilihat tahapan proses KDD secara berurut. Tahapan proses KDD menurut Han & Kamber (2001), yaitu : 1. Pembersihan data Pembersihan terhadap data dilakukan untuk menghilangkan data yang tidak konsisten dan data yang mengandung noise. 2. Integrasi data Proses integrasi data dilakukan untuk menggabungkan data dari berbagai sumber. 3. Seleksi data Proses seleksi data mengambil data yang relevan digunakan untuk proses analisis. 4. Transformasi data Proses menransformasikan atau menggabungkan data ke dalam bentuk yang tepat untuk di-mining. 5. Data mining Data mining merupakan proses yang penting dimana metode-metode cerdas diaplikasikan untuk mengekstrak pola-pola dalam data.
2 6. Evaluasi pola Evaluasi pola diperlukan untuk mengidentifikasi beberapa pola-pola yang menarik yang merepresentasikan pengetahuan. 7. Representasi pengetahuan Penggunaan visualisasi dan teknik representasi untuk menunjukkan pengetahuan hasil penggalian gunung data kepada pengguna.
Pattern Evaluation Data mining Task-relevant
Data Data Warehouse Data Cleaning
Selection and Transformation
digunakan untuk memprediksikan kelas atau objek yang memiliki label kelas yang tidak diketahui. Klasifikasi termasuk ke dalam kategori predictive data mining. Model yang diturunkan didasarkan pada analisis dari training data. Teknik klasifikasi adalah pendekatan sistematis untuk pembuatan model klasifikasi (classifier) dari sebuah data set input. Proses klasifikasi dibagi menjadi dua fase, yaitu learning dan testing (Han & Kamber 2001). Pada fase learning, sebagian data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase testing, model yang sudah terbentuk diuji dengan sebagian data lainnya (test set) untuk mengetahui akurasi dari model tersebut. Jika akurasinya mencukupi maka model tersebut dapat dipakai untuk prediksi kelas data yang belum diketahui.
Data Integration Databases
Gambar 1 Tahapan Proses KDD (Han & Kamber 2001) Data mining Data mining merupakan proses ekstraksi informasi data berukuran besar (Han & Kamber 2001). Menurut Kantardzic (2003), data mining merupakan keseluruhan proses mengaplikasikan komputer dan bermacam teknik untuk menemukan informasi dari sekumpulan data. Dari sudut pandang analisis data, data mining dapat diklasifikasi menjadi dua kategori, yaitu descriptive data mining dan predictive data mining. Descriptive data mining menjelaskan sekumpulan data dalam cara yang lebih ringkas. Ringkasan tersebut menjelaskan sifat-sifat yang menarik dari data. Predictive data mining menganalisis data dengan tujuan mengkonstruksi satu atau sekumpulan model dan melakukan prediksi perilaku dari kumpulan data yang baru. Aplikasi data mining telah banyak diterapkan pada berbagai bidang, seperti analisa pasar dan manajemen, analisis perusahaan dan manajemen resiko, telekomunikasi, asuransi dan keuangan. Klasifikasi Klasifikasi adalah proses menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat
Himpunan Fuzzy Konsep logika fuzzy pertama kali diperkenalkan oleh Prof. Lotfi A Zadeh dari Universitas California pada bulan Juni 1965. Logika fuzzy merupakan generalisasi dari logika klasik yang hanya memiliki dua nilai keanggotaan 0 dan 1. Dalam logika fuzzy nilai kebenaran suatu pernyataan berkisar dari sepenuhnya benar ke sepenuhnya salah. Inti dari himpunan fuzzy yaitu fungsi keanggotaan yang menggambarkan hubungan antara domain himpunan fuzzy dengan nilai derajat keanggotaan. Derajat keanggotaan menunjukkan nilai keanggotaan suatu objek pada suatu himpunan. Nilai keanggotaan ini berkisar antara 0 sampai 1. Dengan teori himpunan fuzzy suatu objek dapat menjadi anggota dari banyak himpunan dengan derajat keanggotaan yang berbeda dalam masingmasing himpunan (Cox 2005). Peubah Linguistik Peubah linguistik merupakan peubah yang mempunyai nilai linguistik berupa kumpulan kata (linguistic term) yang bersesuaian dengan derajat keanggotaan dalam suatu himpunan. Peubah linguistik dikarakterisasi oleh quintaple ( x, T ( x ), X , G , M ) dengan x adalah nama peubah, T(x) adalah kumpulan dari linguistic term, X menunjukkan nilai interval x, G adalah aturan sintak yang membangkitkan term dalam T(x), M adalah aturan semantik yang bersesuaian dengan nilai linguistik M(A), dengan M(A) menunjukkan
3 fungsi keanggotaan untuk himpunan fuzzy dalam X. Sebagai contoh, jika umur diinterpretasikan sebagai peubah linguistik, maka himpunan dari linguistic term T(umur) menjadi : T(umur) = {sangat muda, muda, tua} Setiap term dalam T(umur) dikarakterisasi oleh himpunan fuzzy dalam X. Aturan sintak membangkitkan term dalam T(x), sedangkan aturan semantik menunjukkan fungsi keanggotaan dari setiap nilai pada himpunan linguistic term (Kantardzic 2003). Linguistic term Linguistic term didefinisikan sebagai kumpulan himpunan fuzzy yang didasarkan pada fungsi keanggotaan yang bersesuaian dengan peubah linguistik (Au & Chan 2001). D kumpulan dari record yang terdiri dari kumpulan atribut I = {I1,..., I n} , dengan I v , v = 1,..., n . Atribut I dapat berupa atribut numerik atau kategorikal. Untuk setiap record d elemen D, d [I v ] menotasikan nilai i dalam record d untuk atribut I v . Kumpulan linguistic term dapat didefinisikan pada seluruh domain dari atribut kuantitatif. Himpunan fuzzy dapat didefinisikan untuk setiap L vr dengan L vr ,
Secara umum untuk atribut numerik dan kategorikal, himpunan linguistic term dinotasikan oleh
{ vr | v = 1,..., n, r = 1,..., sv }
L= L
dengan
sv = m v
, selama linguistic term
digambarkan sebagai himpunan fuzzy, maka himpunan linguistic term dapat dinyatakan sebagai himpunan fuzzy. Diberikan record d ∈ D , linguistic term L
∈ L dan himpunan fuzzy
vr Lvr ∈ L , nilai derajat
keanggotaan dalam d dengan linguistic term L vr , dinotasikan oleh µ L ( d [I v ]) . vr
dikarakterisasi oleh term
d
L vr dengan
µ L (d [I v ]) . Jika µL (d[I v ]) = 1, d secara utuh dikarakterisasi
derajat
keanggotaan
vr
vr
L vr . Jika µ L (d [I v ]) = 0 , d tidak L vr . Jika dikarakterisasi oleh term , secara parsial d 0 < µ L ( d [I v ]) < 1 dikarakterisasi oleh term L vr .
oleh term
vr
vr
d dapat dikarakterisasi oleh lebih dari satu
L vr .
term
Diberikan
Iϕ = { I v | v ∈ ϕ } ,
Iϕ ,
dengan
berasosiasi
oleh
r = 1,..., s v menotasikan linguistic term yang
linguistic term Lϕr , r = 1,....., sφ
berasosiasi dengan atribut I v . Himpunan fuzzy, Lvr, r = 1,....., sv didefinisikan sebagai :
sϕ = ∏ sv . Notasi ϕ menotasikan subset
⎧ µ L (i ) ⎪ ⎪ ∑ dom( I v ) vr v jika I v diskret iv ⎪⎪ Lvr = ⎨ ⎪ µ L (i ) ⎪∫ ⎪ dom( I v ) vr v jika I v kontinu iv ⎪⎩
untuk
semua
{
}
iv ∈ dom( I v ) ,
dengan
dom( I v ) = iv1 ,..., ivmv .
Derajat keanggotaan dari nilai iv ∈ dom( I v ) dengan beberapa linguistic term Lvr dinotasikan oleh µ . Untuk atribut L vr kategorikal, linguistic term L vr , r = 1,..., mv direpresentasikan oleh himpunan fuzzy Lvr sebagai : 1 Lvr = ivr
v∈ϕ
{
dengan
}
dari bilangan integer, ϕ = v1 ,...., vm , dengan
{
}
v ,..., v m ∈ 1,...., n , v1 ≠ .... ≠ v m dan 1
| ϕ |= h ≥ 1 .
Setiap
didefinisikan oleh kumpulan
Lϕr
linguistic term Lv r ,...., Lv r ∈ L . Nilai m m 11 derajat dengan d dikarakterisasi oleh term Lϕr λLϕr (d ) , didefinisikan oleh :
(
)
⎛
λL ϕr = min ⎜ µ
⎜ Lv r 1 1 ⎝
( [ ])
d I v ,......, µ L v m rm 1
⎞
( d [I vm ] )⎟⎟ ⎠
D dapat direpresentasikan oleh kumpulan data fuzzy F yang dikarakterisasi oleh kumpulan
atribut linguistik, L = (L1 ,...., Ln ) .
Untuk setiap atribut linguistik Lv dari Lv dalam record t ∈ F adalah
∈ L nilai
4
{(
) (
t [Lv ] = Lv1 , µ v1 ,...., Lvs v , µvsv
)}
1) R1 = {first - order fuzzy rules}
dengan Lvk sebagai linguistic term dan µvk sebagai derajat keanggotaan, dengan k ∈ 1,....., sϕ . Untuk t ∈ F, oLpq Lϕk
{
}
menotasikan nilai derajat dengan t dikarakterisasi oleh linguistic term Lpq dan Lϕk , p ∉ φ yang didefinisikan oleh :
oL pq Lψk
=
min
(µ
L pq , µ Lϕk
)
(1)
Jumlah dari derajat suatu record dalam F yang dikarakterisasi oleh linguistic term Lpq dan Lϕk didefinisikan oleh : deg L L = ∑ oL L pq ϕk pq ϕk t∈F
(2)
Dengan menggunakan linguistic term, dapat ditemukan suatu aturan fuzzy dari sejumlah data fuzzy dan merepresentasikannya dengan cara yang mudah dipahami oleh manusia (Au & Chan 2001).
2) for (m = 2; Rm −1 ≠ φ ; m + + ) do
3) begin 4)C = {each condition in the antecedent of r | r ∈ Rm1} 5) forall ϕ composed of m elements in C do 6) begin 7) forall t ∈ F do 8) forall L pq , µ pq ∈ t L p , Lϕk , µϕk ∈ t Lϕ , p ∈ϕ
) [ ](
(
do 9)
(
) [ ]
+ = min ( µ pq , µϕk ) ; deg L L pq ϕk
) [ ](
) [ ]
10) forall L pq , µ pq ∈ t L p , Lϕk , µϕk ∈ t Lϕ , p ∈ϕ do 11) if interesting L pq , Lϕk then
(
(
)
)
Rm = Rm ∪ rulegen L pq , Lϕk ;
12) 13) end 14) end 15) R = U Rm ; m
Gambar 2 Algoritma data mining fuzzy (Au & Chan 2001)
Algoritma Derajat Keanggotaan dalam Fuzzy
Aturan Kemenarikan dalam Data Fuzzy dengan Lϕk , Hubungan antara Lpq
Prinsip dari algoritma data mining fuzzy yaitu menyajikan aturan fuzzy dengan beberapa orde. Orde pertama dari aturan fuzzy didefinisikan oleh aturan yang hanya melibatkan sebuah linguistic term dalam anteseden, orde kedua melibatkan dua buah linguistic term, orde ketiga melibatkan tiga buah linguistic term, dan selanjutnya. Algoritma data mining fuzzy dapat dilihat pada Gambar 2.
dikatakan menarik, jika nilai
Untuk mencari nilai kemenarikan (interestingness) dari orde pertama digunakan ukuran kemenarikan objektif. Setelah ditemukan nilai kemenarikan maka disimpan pada peubah R1. Aturan di R1 digunakan untuk membangkitkan orde kedua yang tersimpan dalam R2. R2 akan digunakan untuk membangkitkan aturan orde ketiga yang tersimpan pada R3 dan begitu seterusnya. Fungsi interesting (Lpq, Lϕk ) menghitung nilai hubungan kemenarikan antara Lpq dengan Lϕk . Jika fungsi interesting (Lpq, Lϕk ) menghasilkan nilai benar maka aturan fuzzy tersebut dibangkitkan oleh fungsi rulegen, kemudian dihitung nilai bobot bukti. Semua aturan fuzzy yang dibangkitkan oleh rulegen disimpan dalam R dan akan digunakan untuk proses prediksi.
(
)
jml derajat dari record yang dikarakterisasi oleh L pq dan Lϕk
Pr L pq | Lϕ k =
jml derajat dari record yang dikarakterisasi oleh Lϕk
berbeda dengan nilai
Pr (L pq ) =
dengan
jml derajat dari record yang dikarakterisasi oleh L pq
M s p sϕ
M = ∑ ∑ degL L . pu ϕi u =1i =1
Nilai
perbedaan tersebut, secara objektif dapat dievaluasi menggunakan nilai adjusted residual yang didefinisikan oleh :
d Lpq Lϕk = dengan z Lpq L
ϕk
z Lpq L
ϕk
γ
(3)
Lpq Lϕk
adalah nilai standardized
residual, yang didefinisikan oleh : z Lpq Lϕk =
deg L
pq Lϕk
eL
− eL pq Lϕk
pq Lϕk
(4)
5 dengan eLpq Lϕk
adalah jumlah derajat dari
record yang diduga dikarakterisasi oleh Lpq dengan Lϕk yang didefinisikan oleh : sp
sϕ
eL pqLϕk =
∑ deg i =1
L pq Lϕi
∑ deg u =1
L pu Lϕk
(5)
M
dan γ Lpq Lϕ adalah nilai maximum likelihood k
estimate
dari
z Lpq Lϕk ,
ragam
yang
γ
L pq Lϕk
Jika dLpq Lϕk
sϕ
∑ deg i =1
M
L pq Lϕi
⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦
⎡ ⎢ ⎢ ⎢1 − ⎢ ⎢ ⎣
sp
∑ deg u =1
L pu Lϕk
M
(
)
U( )
(
⎤ ⎥ ⎥ (6) ⎥ ⎥ ⎥ ⎦
> 1.96 (nilai persentil dari
distribusi normal), dapat disimpulkan bahwa nilai antara Pr (L pq | Lϕk ) dan Pr (Lpq ) secara
⎞
)⎟⎟ ⎠
(8)
U
wLpq Lϕk dapat diinterpretasikan secara intuitif sebagai perhitungan perbedaan dari record Lϕk yang dikarakterisasi oleh Lpq dan Lpi , i ≠ q . Diberikan
didefiniskan oleh : ⎡ ⎢ ⎢ = ⎢1 − ⎢ ⎢ ⎣
⎛ wL pq Lϕk = I L pq : Lϕk − I ⎜ L pi | Lϕk ⎜ i≠q ⎝ Pr Lϕk | L pq = log ⎛ ⎞ Pr ⎜ Lϕk | L pi ⎟ ⎜ ⎟ i≠q ⎝ ⎠
oleh
Lϕk yang didefinisikan
kumpulan
term,
linguistic
L v1r 1 ,...., L vm r m ∈ L dapat dibentuk aturan fuzzy
pada tingkat yang lebih tinggi (high-order) sebagai : L v1r 1 ,...., L vm r m ⇒ L pq [ wL L ] pq ϕk
dengan v1 ,...., v m ∈ ϕ (Au & Chan 2001).
signifikan berbeda sehingga hubungan antara Lpq dengan Lϕk menarik (interesting).
Prediksi Nilai Yang Tidak Diketahui Menggunakan Aturan Fuzzy Diberikan suatu record, d ∈ dom I1 × .... × dom I p × .... × dom(I n ) ,
Perhitungan Nilai Bobot Bukti Diberikan linguistic term
d dikarakterisasi oleh n atribut, α1 ,....., α p ,...., α n dengan α p adalah nilai
Lϕk
yang
berasosiasi dengan linguistic term Lpq , dapat dibentuk suatu aturan fuzzy Lϕk ⇒ L pq [ wL L ] dengan w Lpq Lϕ adalah pq ϕk k nilai bobot bukti. Selama hubungan antara Lpq dengan Lϕk menarik, maka terdapat bukti berupa record yang dikarakterisasi oleh Lpq mempunyai Lϕk . Perhitungan nilai bobot bukti dikenal
( )
( )
yang akan diprediksi. L p , p = 1,...., sϕ adalah linguistic term
{
}
dari atribut kelas Ip. lp linguistic term dengan . Nilai domain dom I p = L p1 ,..., L ps p dari α p didefinisikan oleh nilai lp. Untuk
( )
memprediksi nilai lp digunakan pendekatan aturan fuzzy dengan L pq ∈ dom I p sebagai
( )
sebagai informasi mutual. Informasi mutual menghitung nilai ketidakpastian dari Lpq pada suatu record yang mempunyai Lϕk , yang
konsekuen.
didefinisikan oleh :
dari d dikarakterisasi oleh linguistic term Lϕk
I (Lpq : Lϕk ) = log
Pr (Lpq : Lϕk ) Pr (Lpq )
Kombinasi dari nilai atribut α ϕ , p ∉ ϕ dengan
(7)
dengan berdasarkan nilai informasi mutual, perhitungan bobot bukti, didefinisikan sebagai:
{
λLϕk (d )
derajat
}
k ∈ 1,....., sϕ .
untuk
setiap
Nilai bobot bukti dari
L v1r 1 ,...., L vm r m ⇒ L pq [ wL L ] , pq ϕk
{
untuk
}
semua k ∈ ζ ⊆ 1,...., sϕ , didefinisikan oleh :
wL pqαϕ = Misalkan,
∑ζ w k∈
L pq Lϕk
n-1
α [1] ,....., α [ j ] ,...., α [β ]
.λLϕk (d )
atribut dengan
(tanpa
(9) α p ),
6
α [ j ] = { α i | i ∈ (1,....., n ) − { p}} ditemukan untuk menyamakan satu atau lebih aturan, maka bobot bukti untuk nilai lp diberikan oleh :
wq =
β
∑w
(10)
L pqα [ j ]
j =1
Nilai α p didefinisikan oleh
{(L
p1 , w1
),....., (L
pq , wq
),......, (L
ps p
)}
, ws p .
Jika Ip kategorikal, lp diberikan ke Lpc jika (11)
wc > w g , g = 1,....., s ' p dan g ≠ c
dengan s ' p (≤ s p )
adalah linguistic term
yang tercantum dalam aturan, dan
( )
αp
diberikan ke ipc ∈ dom I p . Jika Ip kuantitatif, diberikan linguistic term L ,...., L p , bobot bukti w1 ,...., w ps , p p1
sp
( )
bobot derajat keanggotaan dari ip
∈ dom I p
dengan himpunan fuzzy Lpu ,
µ ' L pu i p
( )
{
}
u ∈ 1,...., s p .
µ'
L
⎛⎜ i ⎞⎟ ⎝ p⎠
pu
METODE PENELITIAN
(i ) = wu .µ L pu (i p ) pu p ( )
i p ∈ dom I p
(12)
{
⎛ ⎜
}
u ∈ 1,...., s p .
dan
⎞ ⎟ L pu ⎟ untuk α p ⎜ u =1 ⎟ ⎝ ⎠
Nilai defuzifikasi F −1 = ⎜
sp
U
didefinisikan sebagai :
F −1
⎛ sp ⎞ ⎜ ⎟ =⎜ L pu ⎟ = ⎜ u =1 ⎟ ⎝ ⎠
U
∫( µ ')
L p1∪...∪ L ps
dom I p
∫( µ ')
L p1∪...∪ L ps
(
()
(i p ).i p di p
p
dom I p
p
(i p ).di p ()
(13)
( ))
µ X ∪Y i = max µ ' X i , µ 'Y i
dengan
untuk himpunan fuzzy X dan Y. Untuk mengevaluasi hasil perhitungan digunakan root-mean-squared error. Nilai root-mean squared error (rms) didefinsikan oleh : rms =
1 n
⎛ t r − 1 o r −l ⎞ − ⎜⎜ ⎟ u − 1 u − l ⎟⎠ r∈D ⎝
∑
K-Fold Cross Validation K-Fold Cross Validation dilakukan untuk membagi training set dan test set. K-Fold Cross Validation mengulang k-kali untuk membagi seluruh himpunan contoh secara acak menjadi k subset yang saling bebas, setiap ulangan disisakan satu subset untuk pengujian dan subset lainnya untuk pelatihan (Fu 1994). Pada metode tersebut, data awal dibagi menjadi k subset atau “fold“ yang saling bebas secara acak, yaitu S1,S2,…,Sk, dengan ukuran setiap subset kira-kira sama. Pelatihan dan pengujian dilakukan k kali. Pada iterasi ke-i, subset Si diperlakukan sebagai data pelatihan. Pada iterasi pertama S2,…,Sk menjadi data pelatihan dan S1 menjadi data pengujian, pada iterasi kedua S1,S3,…,Sk, menjadi data pelatihan dan S2 menjadi data pengujian, dan seterusnya.
didefinisikan
oleh : µ 'L
dengan
dengan D sekumpulan test record, n sebagai untuk record jumlah test record dalam D, r ∈ D dan [l, u ] ⊂ ℜ sebagai atribut kelas, tr sebagai nilai target dari atribut kelas dalam r dan or nilai yang diprediksi (Au & Chan 2001).
2
(14)
Proses Dasar Sistem Data yang digunakan dalam penelitian ini adalah data hasil pemeriksaan laboratorium dan data catatan medis rawat inap dari tahun 2004 sampai 2005. Tahapan proses dasar sistem dapat dilihat pada Lampiran 1. Proses tersebut dapat diuraikan sebagai berikut : a. Pembersihan data, dilakukan jika ditemukan data yang mengandung noise, nilai hilang dan data yang duplikat.
b. Transformasi data, proses transformasi data ke bentuk yang dapat di-mining. Sebelum di-mining, data diabetes diubah ke dalam bentuk data fuzzy. c. Aplikasi teknik data mining, merupakan tahap yang penting karena pada tahap ini teknik data mining diaplikasikan terhadap data. Teknik data mining yang digunakan yaitu klasifikasi. Klasifikasi dilakukan melalui dua tahapan proses, yaitu : 1. Membangun model untuk menemukan aturan klasifikasi (training). Tahap pembangunan model memerlukan