PENERAPAN ALGORITMA DECISION TREE C4.5 UNTUK DIAGNOSA PENYAKIT STROKE DENGAN KLASIFIKASI DATA MINING PADA RUMAH SAKIT SANTA MARIA PEMALANG
Sigit Abdillah A11.2011.06469 Program Studi Teknik Informatika – S1 Fakultas Ilmu Komputer Universitas Dian Nuswantoro, Jl. Nakula 1 No. 5-11 Semarang
[email protected]
ABSTRAK
Data Mining adalah proses ekstraksi sebelumnya tidak dikenal dan dipahami dari database berukuran besar dan digunakan untuk membuat keputusan bisnis yang penting.Studi kasus yang digunakan dan diterapkan dalam tugas akhir ini adalah data pasien penyakit saraf khususnya penyakit Stroke untuk dikelola menggunakan algoritma C4.5 dengan metode klasifikasi data mining. Stroke termasuk penyakit pembuluh darah otak ditandai dengan kematian jaringan otak yang terjadi karena berkurangnya aliran darah dan oksigen ke otak. Salah satu cara untuk mempelajari Stroke yaitu dengan ilmu data mining tepatnya menggunakan algoritma C4.5, hasil laporan ini menentukan pasien penyakit stroke dengan variabel yang diketahui kemudian diolah menggunakan data mining algoritma C4.5. Kata kunci :Data mining, algoritma C4.5, klasifikasi, stroke
I.
PENDAHULUAN
Pada dunia kesehatan secara teknis
macam kasus tersebut diantaranya yaitu
sudah mengenal data mining dalam cakupan
terdapat teknik Naïve Bayes classification
luas menjadi potensial informasi. Contohnya
(NBC)
dalam
sudah
kesehatan contohnya seleksi embrio, dan
menggunakan beberapa teknik data mining
teknik data mining Decision Treeuntuk
modern pada beberapa kasus yang ada
mendeteksi dan memvalidasi hipertensi pada
bidang
rekam
medis
seperti klasifikasi dan data prediktif.Macam-
yang
diterapkan
pada
bidang
kehamilan di rumah sakit ataupun instansi
mendeteksi dan memvalidasi hipertensi pada
kesehatan lainnya[2].
kehamilan di rumah sakit ataupun instansi
Untuk
menganalisa
data
dalam
kesehatan lainnya.
jumlah besar yang tersimpan pada database, biasanya
digunakan
teknik
data
Dalam hal ini studi kasus yang dibahas adalah mengenai salah satu penyakit
mining.Meski telah umum digunakan pada
berbahaya
industri
menyebabkan
keuangan
dan
telekomunikasi,
bagi
manusia
kematian
yang
yaitu
dapat
penyakit
teknik data mining mulai diterapkan secara
stroke, penyakit ini terbagi menjadi dua
intensif dibidang kesehatan. Sebagai contoh,
yaitu stroke mayor dan stroke minor yang
Mayo Clinic bekerjasama dengan IBM
dapat mengancam jiwa seseorang, dan dapat
menerapkan teknik data mining pada pasien
terjadi karena ada gangguan suplai darah
dengan kesamaan jenis kelamin, usia dan
pada sebagian atau seluruh organ otak.
riwayat kesehatan untuk mengetahui respon terhadap pengobatan tertentu.
Dari hal yang telah dijabarkan diatas, akan
dilakukan
pengujian
mengenai
Data Mining adalah proses ekstraksi
mengangkat permasalahan tersebut sebagai
sebelumnya tidak dikenal dan dipahami dari
Penerapan Algoritma Decision Tree C4.5
database berukuran besar dan digunakan
Untuk Diagnosa Penyakit Stroke Dengan
untuk membuat keputusan bisnis yang
Klasifikasi Data Mining Pada Rumah Sakit.
penting[1].
II.
METODOLOGI
A.
Tahap-tahap Data Mining
Pada dunia kesehatan secara teknis sudah mengenal data mining dalam cakupan luas menjadi potensial informasi. Contohnya dalam
bidang
rekam
medis
sudah
menggunakan beberapa teknik data mining modern pada beberapa kasus yang ada seperti
klasifikasi
dan
data
prediktif.
Macam-macam kasus tersebut diantaranya yaitu
terdapat
teknik
Naïve
Bayes
classification (NBC) yang diterapkan pada bidang kesehatan contohnya seleksi embrio, dan teknik data mining Decision Treeuntuk
Gambar 1.Tahapan Data Mining
1. Pembersihan data (Cleaning data)
karena kesalahan pada integrasi data
Untuk menghilangkan data yang
bisa
menghasilkan
hasil
yang
tidak diperlukan, data yang diperoleh
menyimpang dan bahkanmenyesatkan
dari tahap pengambilan dataset akan
pengambilan keputusan pada akhirnya.
disaring untuk menghasilkan data yang
Dalam integrasi data ini juga perlu
benar-benar dibutuhkan. umumnya data
dilakukan
tersebut memiliki nilai yang tidak
pembersihan data karena seringkali data
sempurna
yang
dari dua database berbeda tidak sama
hilang.Selain itu, ada juga atribut-atribut
cara penulisannya atau bahkan data
data
yang ada di satu database ternyata tidak
seperti
yang
tidak
data
rsesuai
dengan
transformasi
pemrosesan data mining yang akan
ada di database lainnya.
digunakan.Data-data yang tidak relevan
3. Seleksi Data
dan
itu juga lebih baik dibuang karena
Data diseleksi untuk menentukan
keberadaannya bisa mengurangi mutu
variabel apa saja yang akan diambil
atau akurasi dari hasil data mining
agar
nantinya. Pembersihan data juga akan
perulangan yang tidak diperlukan dalam
mempengaruhi performasi dari sistem
pengolahan teknik data mining.Sebagai
data mining karena data yang ditangani
contoh, sebuah kasus yang meneliti
akan
faktor kecenderungan
berkurang
jumlah
dan
kompleksitasnya.
kesamaan
dan
orangmembeli
tidak perlu mengambil namapelanggan,
Datayang akan digunakan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari database
terjadi
dalam kasus market basket analysis,
2. Integrasi data
beberapa
tidak
atau
file
teks.
cukup dengan id pelanggan saja. 4. Transformasi data Pengubahan data menjadi format ekstensi yang sesuai untuk pengolahan
Integrasi data dilakukan pada atribut-
dalamdata
mining.Beberapa
aribut yang mengidentifikasikan entitas-
data mining membutuhkan format data
entitas yang unik seperti atribut nama,
yangkhusus
jenis produk, nomor pelanggan dan lain-
dalam teknik data mining. Misalnya
lain. Pada tahap ini hal yang perlu
sebagian metode standarseperti analisis
dilakukan untuk lebih detail dan cermat
asosiasi dan klastering hanya bisa
sebelum
bisa
metode
diproses
menerima
input
datakategorikal.
Tahapterakhir
Karenanya data berupa angka numerik
miningadalah
yang berlanjut perlu dibagimenjadi
memformulasikan keputusanatau aksi
beberapa interval.
dari hasil analisis yang didapat. Ada
5. Proses mining,
kalanya hal ini harus melibatkanorang-
Untuk memproses teknik utama saat metode
diterapkan
hasil
B.
CRISP-DM (Cross Industry Standart Process for Data Mining) CRISP-DM (CRoss-Industry Standard
Process for Data Mining) merupakan proses
Tahap ini yaitu mengidentifikasi pola-pola menarik kedalam knowledge based
presentasi
datamining.
harus di terapkan pada proses mining
6. Evaluasi pola
data
bagaimana
mining.Karenanya
menemukanpengetahuan berharga, data
setelah data melalui tahap transformasi.
proses
orang yang tidak memahami data
agar
yang terkumpulkan sesuai prosedur
dari
yangdiidentifikasikan.
standar
yang
biasa
digunakan
dalam
penerapan ilmu data mining.
Dalam
tahap ini hasil dari teknik data mining berupa pola-pola yangkhas maupun model prediksi dievaluasi untuk menilai apakah
kajian
yang
ada
sudah
memenuhi target yang diinginkan. Jika ternyata hasil yang diperoleh tidak sesuai kajian adabeberapa alternatif dengan mencoba metode data mining
Gambar 2.CRISP-DM
lain agarlebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaanyang mungkin bermanfaat.
Merupakan visualisasi dan penyajian
yangdigunakan
mengenai untuk
Memahami tujuan dan kebutuhan dari sudut pandang bisnis, kemudian
7. Presentasi pengetahuan
pengetahuan
1. Business Understanding
metode memperoleh
pengetahuan yang diperoleh pengguna.
menterjemakan pendefinisian
pengetahuan ini masalah
dalam
ke data
mining. Selanjutnya akan ditentukan
rencana dan strategi untuk mencapai tujuan tersebut. Menerjemahkan tujuan dan batasan dari data yang diambil dari rumah sakit menjadi formula dari permasalahan data
Atribut
Detail penggunaan
Id
Nilai unique
mining mulai dari menyiapkan strategi
Umur
Nilai Model
awal hingga metode yang dibutuhkan
Jenis kelamin
No
untuk mencapai tujuan. 2. Data Understanding Pengumpulan
data
yang
akan
dilanjutkan mendeteksi adanya bagian yang menarik dari data yang dapat digunakan
untuk
hipotesa
untuk
informasi yang tersembunyi. 3.
Tabel 1.atribut pengolahan data
Data Preparation Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data
Suhu tubuh
X
No
Denyut nadi
X
Nilai Model
Pernafasan
X
Nilai Model
Kesadaran
X
No
Sulit bicara
X
No
Gerak terbatas
X
Nilai Model
Badan lemas
X
No
Mual muntah
X
No
Factor keturunan
X
No
Diabetes mellitus
Nilai Model
Hipertensi
Nilai Model
Kolesterol
X
Nilai Model
Hemoglobin
X
Nilai Model
pemodelan) dari data mentah. Tahap ini
Kadar gula acak
X
Nilai Model
dapat diulang beberapa kali.
Kolesterol total
X
Nilai Model
yang
akan
diproses
pada
tahap
Tahap ini adalah pemilihan atribut data
Ket. Stroke
Label Target
yang digunakan, serta pembagian data menjadi dua kelompok yaitu data
Setelah dilakukan pemilihan atribut
testing dan data training yang akan
pada proses pengolahan data dengan
diimplementasikan pada analisa dan
berdiskusi dengan pakar dibidangnya
pembahasan
yaitu kepala rekam medis rumah sakit tempat
melaksanakannya
penelitian
sebagai perwakilan dari pakar bidang kesehatan pada rumah sakit umum Santa Maria tersebut, apa sajakah variabel
pendukung
yang
lebih
mempengaruhi tingkat keakuratannya dalam
pengaruh
penkonversian
penyakit
atribut
ini
stroke, berbguna
untuk memudahkan dalam melakukan perhitungan dan analisa dalam tahap
Id
Umur
Hipertensi
Diabetes
Ket. Stroke
001 002 003 004 005
Dewasa Tua Tua Tua Tua
Ya Tidak Ya Tidak Ya
Positif Negatif Positif Negatif Negatif
Tidak Ya Ya Tidak Ya
006 007
Tua Tua
Tidak Ya
Positif Positif
Tidak Ya
No.
Umur
Hipertensi
Diabetes
Ket. Stroke
001 002 003 004 005
35 49 55 57 50
Ya Tidak Ya Tidak Ya
Positif Negatif Positif Negatif Negatif
Tidak Ya Ya Tidak Ya
008
Tua
Ya
Negatif
Tidak
009
Muda
Ya
Positif
Tidak
010
Dewasa
Tidak
Negatif
Ya
006 007
57 61
Tidak Ya
Positif Positif
Tidak Ya
011
Tua
Ya
Positif
Tidak
012
Tua
Tidak
Positif
Ya
008
49
Ya
Negatif
Tidak
013
Tua
Tidak
Positif
Ya
009
30
Ya
Positif
Tidak
014
Tua
Tidak
Positif
Ya
010
44
Tidak
Negatif
Ya
011
72
Ya
Positif
Tidak
012
81
Tidak
Positif
Ya
015 016 : 156
Tua Dewasa : Dewasa
Ya Tidak : Ya
Negatif Negatif : Negatif
Tidak Ya : Tidak
013
27
Tidak
Positif
Ya
014
68
Tidak
Positif
Ya
015 016 : 156
67 45 : 37
Ya Tidak : Ya
Negatif Negatif : Negatif
Tidak Ya : Tidak
data mining
Table 4.data setelah dikonversi
4.
Modeling
Table 2.ilustrasi atribut yang akan
Dalam
digunakan dalam pemodelan
pemilihan teknik
tahap dan
ini
akan
penerapan
pemodelan
dan
dilakukan berbagai beberapa
parameternya akan disesuaikan untuk Kemudian lakukan pengkonversian data agar mudah dilakukan pengolahan teknik data mining. Table 3.
mendapatkan nilai yang optimal.
Data
yang
penelitian ini
digunakan adalah
dalam
sumber data
primer. Data yang dikumpulkan yaitu data pasien berpenyakit stroke
C. Gambar 3 Model penelitian yang diusulkan
DECISION TREE ALGORITMA C4.5 Decision Tree.Pohon (Tree) adalah
sebuah struktur data yang yan terdiri dari simpul (node) dan rusuk (edge). Simpul
5.
Evaluation
pada sebuah pohon keputusan dibedakan
Melakukan
evaluasi
terhadap
keefektifan dan kualitas model tujuan yang
ditetapkan
pada
fase
tahap ini adalah menentukan apakah ada bisnis
yang
belum
dipertimbangkan. Di akhir dari tahap ini harus
ditentukan
penggunaan
hasil
proses data mining. 6.
akan
diatur
dan
dipresentasikan dalam bentuk khusus dapat
digunakan
oleh
pengguna. Tahap deployment dapat berupa banyak
pembuatan kasus,
melibatkan
laporan
tahap
konsumen,
Dalam
deployment di
samping
analis data, karena sangat penting bagi konsumen untuk memahami tindakan apa
yang
harus
simpul,
simpul
Pada pohon keputusan ini bisa memberikan
keuntungan
berwujud
visualisasi dari pemecahan masalah yang diolah menggunakan teknik data mining yang membuat protocol dari prediksinya dapat diamati, maka dari itu konsep ini
keputusan ini sendiri juga sudah banyak
Pengetahuan atau informasi yang telah
sehingga
akar
termasuk fleksibel dan atraktif. Pohon
Deployment
diperoleh
tiga,
percabangan, dan simpul akhir[12].
awal
(Business Understanding).Kunci dari
masalah
menjadi
dilakukan
untuk
menggunakan model yang telah dibuat.
digunakan pada berbagai bidang ilmu pengetahuan, salah satunya yaitu bidang kesehatan untuk diagnosa penyakit pasien, ilmu computer pada struktur data, psikologi untuk teori pengambilan keputusan, dan lain-lain. Dalam pohon keputusan sangat berhubungan dengan
algoritma
algoritma
C4.5
keputusan.Algoritma merupakan
C4.5,
salah
karena
adalah data satu
dasar pohon
mining
C4.5
algoritma
yang
digunakan untuk melakukan klasifikasi atau segmentasi bersifat
atau
pengelompokan
prediktif.Cabang-cabang
yang
D.
MATRIKS KONFUSI
pohon
Confusion Matrix adalah tool yang
keputusan merupakan pertanyaan klasifikasi
digunakan untuk evaluasi model klasifikasi
dan daun-daunnya merupakan kelas-kelas
untuk memperkirakan objek yang benar atau
atau segmen-segmennya.
salah. Sebuah matrix dari prediksi yang akan
Rumus menghitung entropy pada algoritma C4.5 𝑘 𝑖=1 −𝑝𝑖 𝑙𝑜𝑔2
Entropi (S) =
𝑝𝑖……..….(2.1)
dibandingkan dengan kelas yang asli dari inputan
dengan
kata
lain
berisi
informasi nilai aktual dan prediksi pada klasifikasi.
Keterangan :
Table 5.contohconfusion matrix
S
: Himpunan (dataset) kasus
k
: Banyaknya partisi S
Pi
: Probabilitaas yang didapat dari
Classification
Sum(Ya) atau Sum(Tidak) dibagi total kasus
Setelah
atau
mendapatkan
entropi
Class=Yes
dari
Class=No
keseluruhan kasus, lakukan analisis pada
Predicted class Class = Yes
Class = No
a (true
b (false negative-
positive-TP)
FN)
c (false
d (true negative-
positive-FP)
TN)
setiap atribut dan nilai-nilainya dan hitung entropinya.
Langkah
berikutnya
yaitu
dengan menghitung Gain, rumus daripada Gain adalah sebagai berikut:
Rumus untuk menghitung tingkat akurasi pada matriks adalah: 𝑇𝑃 + 𝑇𝑁
Akurasi = 𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁 = Gain(A) = Entropi (S) -
𝑘 |𝑆𝑖| 𝑖=1 |𝑆|
𝑎+𝑑 ....(2.3) 𝑎+𝑏+𝑐+𝑑
x Entropi (Si.)
..………………………………………..………..(2.2)
Keterangan : S
: himpunan kasus
A
: atribut
n
: jumlah partisi atribut A
|Si|
: jumlah kasus pada partisi ke-i
|S|
: jumlah kasus dalam S
III.
ANALISA DAN PEMBAHASAN
a. Pengoperasian Sistem
yaitu
menjumlahkan
Stroke(positive) stroke(positive)
nilai
Prediksi
denganPrediksi kemudian
Non-
membaginya
dengan seluruh elemen variabel yang ada yaitu Prediksi Stroke(positive), Prediksi Stroke(negative), stroke(positive),
Prediksi dan
stroke(negative). (76+31)/(76+16+7+31)
Non-
Prediksi Nilainya x
Nonyaitu
100%
=
82,3077%. b. Pohon Keputusan Untuk mendukung aturan aturan yang Gambar 4 Input Data Training pada Sistem
terbentuk dari data pasien stroke yang
Data diinputkan pada sistem yang
diperoleh kedalam sistem maka dibentuklah
dibuat menggunakan matlab versi R2010a,
pohon keputusan, selain berfungsi sebagai
isikan semua data yang dibutuhkan sesuai
penentuan rulesatau aturan
form yang tersedia. Pada gambar 4.3
penyakit stroke, sistem pohon keputusan ini
langkah yang pertama dijalankan yaitu
juga mempresentasikan bagaimana seorang
mengunggah file yang akan diolah dalam
pasien bisa terserang stroke dari beberapa
sistem, file yang digunakan adalah „data
variabel yang tersedia dari data pasien
training TA‟ yang berekstensi „.xls‟ yaitu
penyakit stroke.
data
pasien
penyakit
stroke
klasifikasi
setelah
dikonversi, data tersebut mengandung empat variabel pendukung yaitu jenis kelamin, usia,
jipertensi,
dan
diabetes.
Serta
mempunyai satu variabel target sebagai klasifikasi keputusan Stroke atau Nonstroke. Dalam
file
„data
training.xls‟
tersebut terdapat tingkat akurasi sebesar 82,3077%, dengan cara menghitungnya Gambar 5. Pohon Keputusan pada Sistem
Berikut penjelasan data training dan
diklasifikasikan NonStroke tetapi masuk
data testing yang akan digunakan dalam
kedalam Stroke, sedangkan jumlah (Prediksi
proses uji coba tingkat akurat data pasien,
NonStroke – TrueNonStroke) adalah 5
dari 156 data akan dibagi menjadi dua
merupakan
bagian yaitu data training yang berjumlah
diklasifikasikan NonStroke.
130 data pasien dan sisanya pada data
Accuracy = (a+d)/(a+b+c+d)
testing yaitu berjumlah 26 data pasien.
jumlah
pasien
yang
= (15+5)/(15+0+6+5) x 100% = 76,92%
Table 6. Pembagian Data Testing dan Data Training
IV.
KESIMPULAN Berdasarkan hasil penelitian dari
jumlah
persentase
Data Training
130
83,33%
permasalahan yang dikembangkan dapat
Data Testing
26
16,67%
disimpulkan bahwa untuk
c. Confusion Matrix
True Stroke
klasifikasi data mining dengan algoritma C4.5 sebagai klasifikasi stroke atau non-
True Nonstroke
15
6
0
5
stroke.
Data
yang
digunakan
sebagai
penelitian disini adalah data pasien penyakit
Stroke Prediksi
kasus
penyakit stroke dapat memanfaatkan teknik
Table 7.confusion matrix dari data testing Prediksi
studi
stroke rumah sakit yang sifatnya rahasia Dari metode klasifikasi data mining
Nonstroke
dengan algoritma C4.5 dan pengaplikasian Pada tabel 7 tersebut menjelaskan
pohon keputusanyang membentuk aturan
bahwa jumlah tabel (Prediksi Stroke - True
tersebut terdapat akurasi pada data training
Stroke) atau (a) yaitu 15 merupakan jumlah
yang berjumlah 130 dari 156 data pasien
pasien
sebesar 82,31%
diklasifikasikan
Stroke,
jumlah
sedangkan akurasi pada
(Prediksi Stroke – True Nonstroke) atau (b)
data testing yang berjumlah 26 dari 156 data
adalah 6 merupakan jumlah pasien yang
pasien
diklasifikasikan
keduanya menggunakanconfusion matrix.
kedalam
Stroke
NonStroke,
tetapi jumlah
masuk
jumlah
pasien
76,92%.
Perhitungan
(Prediksi
NonStroke – True Stroke) atau (c) adalah 0 merupakan
sebesar
yang
V. [1]
DAFTAR PUSTAKA R. A. Prasetyo, "Aplikasi Data Mining
Asociation
Rule
Untuk
Menampilkan
Informasi
Penyebaran
Penyakit
Menggunakan
Algoritma
(Studi
Kasus
Universitas
di
Dian
Departemen
Pola
Dengan
Poliklinik
[6]
Stroke”.Palembang: Universitas Bina
Dian
Dharma
Nuswantoro, vol. 1, pp. 2, 2013. [2]
Murtanto,
A,
"klasifikasi
biaya
[7]
perawatan, & pencagahan”. Andi
menggunakan teknik data mining
[3]
[8]
“Konsep dan Aplikasi Menggunakan
Universitas Halu Oleo, 2014.
Matlab”,Yogyakarta:
Kejadian
CV.
ANDI,
2012
I. K. Gama, I. K. W. Yasa dan I. [9]
E. Prasetyo, “DATA MINING -
"Kepatuhan
Kontrol
Hipertensi
Dengan
Mengolah Data Menjadi Informasi
Keperawatan
Menggunakan Matlab”, Yogyakarta:
Penderita
Stroke",
CV. ANDI, 2014.
Politeknik Kesehatan Denpasar,vol. 1, pp. 4-5. 2011
[10]
P.P. Widodo, R.T. Handayanto dan
M. K. Mukhlis. 2011. “Diagnosa
Herlawati, “Penerapan Data Mining
Kemungkinan Pasien Terkena Stroke
Dengan Matlab”,Bandung: Rekayasa
Dengan Menggunakan Metode Naive
Sains, 2013.
Bayes Dan Metode Jaringan Syaraf Tiruan Berbasis Web”. Surabaya: Institut Negeri Sepuluh Nopember [5]
E. Prasetyo, DATA MINING –
naive bayes," Skripsi Teknik Kendali
Hartini
[4]
dr. pinzon, R. dr Asanti L. “Awas Stroke! pengertian, gejala, tindakan,
pasien rawat inap penyakit jantung
attribute important (ai) dan algoritma
A. Linda. 2012. “Sistem Pakar Pendeteksi Kemungkinan Penyakit
Nuswantoro)",
Universitas
Vector
Quantization”. Surabaya.
ISPA Apriori
Leraning
[11]
D. Retnosari, "Sistem Aplikasi Data Mining Informasi
Untuk Tingkat
Menampilkan Kelulusan
S.A. Aji, M. Sarosa dan S. Onny.
Mahasiswa,", Departemen Teknik
2014.
Informatika
“Klasifikasi
Berdasarkan
Kelainan
Stroke Patologis
Universitas
Islam
Kalimantan, vol. 1, pp. 16-17, 2013.
[12]
F.A.
Himawati,
Data
Yogyakarta: ANDI, 2013
Mining,