PENERAPAN ALGORITMA KLASIFIKASI C4.5 UNTUK DIAGNOSIS PENYAKIT KANKER PAYUDARA Laily Hermawanti Program Studi Teknik Informatika Fakultas Teknik Universitas Sultan Fatah (UNISFAT) Jl. Diponegoro No. 1B Jogoloyo Demak Telp (0291) 686227
Abstrak : Penyakit kanker payudara merupakan . Penelitian ini menggunakan algoritma C4.5 untuk mendiagnosis penyakit kanker payudara. Penelitian ini menghasilkan nilai akurasi untuk algoritma klasifikasi C4.5 senilai 94.56% dan nilai Area Under Curve (AUC) untuk algoritma Naive Bayes senilai 0.941, sehingga penelitian ini dalam mendiagnosis penyakit kanker payudara menghasilkan hasil yang akurat. Kata Kunci: Penyakit kanker payudara, algoritma C4.5
PENDAHULUAN
mendiagnosis penyakit kanker payudara,
Kanker payudara adalah kanker yang
penyakit jantung, penyakit diabetes dan
paling umum pada wanita dan penyebab
lain-lain (Larose, 2005).
utama kematian kanker di seluruh dunia (E. Technical and P. Series, 2006).
Tujuan Penelitian
Meskipun etiologi kanker payudara tidak
Menerapkan algoritma klasifikasi C4.5
diketahui,
untuk
faktor
risiko
kemungkinan
berbagai
mempengaruhi
peningkatan
akurasi
dalam
mendiagnosis penyakit kanker payudara.
perkembangan penyakit ini termasuk faktor genetik, hormonal, lingkungan,
KAJIAN PUSTAKA
sosiobiologis dan fisiologis. Selama
Penyakit Kanker Payudara
beberapa dekade terakhir, risiko kanker
Kanker payudara adalah kanker yang
payudara meningkat di negara-negara
paling umum pada wanita dan penyebab
industri dan berkembang sebesar 1% -
utama kematian kanker di seluruh dunia
2% per tahun, tingkat kematian akibat
(E. Technical and P. Series, 2006).
kanker payudara menurun sedikit (E.
Meskipun etiologi kanker payudara tidak
Technical and P. Series, 2006). Maka
diketahui,
dari itu, penyakit kanker payudara perlu
kemungkinan
didiagnosis.
perkembangan penyakit ini termasuk
Data mining dapat diaplikasikan di
faktor genetik, hormonal, lingkungan,
bidang
sosiobiologis dan fisiologis. Selama
57JURNAL
kesehatan
misalnya
faktor
TEKNIK - UNISFAT, Vol. 7 No. 2, Maret 2012 Hal 57 - 64
risiko
berbagai
mempengaruhi
57
beberapa dekade terakhir, risiko kanker
tahun 1970 hingga di awal tahun 1980-
payudara meningkat di negara-negara
an, J. Ross Quinlan seorang peneliti di
industri dan berkembang sebesar 1% -
bidang
2% per tahun, tingkat kematian akibat
mengembangkan sebuah model pohon
kanker payudara menurun sedikit.
keputusan
Gejala-gejala kanker payudara adalah
(Iterative
payudara massa (breast mass), nyeri
sebenarnya proyek ini telah dibuat
payudara (breast pain), keluarnya puting
sebelumnya oleh E.B. Hunt, J. Marin,
(nipple discharge), penarikan kembali
dan P.T. Stone. Kemudian Quinlan
puting atau kulit, pembengkakan lengan
membuat algoritma dari pengembangan
(arm
ID3 yang dinamakan C4.5 yang berbasis
swelling)
dan
lain-lain
(E.
Technical and P. Series, 2006).
mesin
yang
pembelajaran
dinamakan
Dichotomiser),
ID3
walaupun
supervised learning.
Algoritma C4.5 Pohon keputusan mirip sebuah sebuah struktur pohon dimana terdapat node internal
(bukan
daun)
yang
mendeskripsikan atribut-atribut, setiap cabang
menggambarkan
hasil
dari
atribut yang diuji, dan setiap daun menggambarkan
kelas.
Gambar
1
Gambar 1 Contoh konsep pohon keputusan untuk menentukan pembelian
menggambarkan pohon keputusan untuk
komputer berdasarkan atribut age,
memprediksi apakah seseorang membeli
student dan credit rating.
komputer. Node internal disimbolkan dengan persegi, cabang disimbolkan
Gambar
dengan garis, dan daun disimbolkan
keputusan untuk memprediksi apakah
dengan oval. Algoritma C4.5 dan pohon
seseorang membeli komputer. Node
keputusan merupakan dua model yang
internal disimbolkan dengan persegi,
tak
cabang disimbolkan dengan garis, dan
terpisahkan,
karena
untuk
1
menggambarkan
disimbolkan
membangun sebuah pohon keputusan,
daun
dibutuhan algoritma C4.5. Di akhir
Algoritma C4.5 dan pohon keputusan
Penerapan Algoritma Klasifikasi C4.5 Untuk Diagnosis Penyakit Kanker Payudara TEKNIK - UNISFAT, Vol. 7 No. 2, Maret 2012 Hal 57 - 64 JURNAL –58 Laily Hermawanti
dengan
pohon
oval.
58 58
merupakan
dua
model
yang
tak
terpisahkan, karena untuk membangun
hitung dahulu nilai entropy dapat dilihat pada persamaan 1 :
sebuah pohon keputusan, dibutuhan algoritma C4.5. Di akhir tahun 1970
… (1)
hingga di awal tahun 1980-an, J. Ross
3. Kemudian hitung nilai Gain dengan
Quinlan seorang peneliti di bidang mesin
metode information gain dapat dilihat
pembelajaran mengembangkan sebuah
pada persamaan 2:
model pohon keputusan yang dinamakan ID3 (Iterative Dichotomiser), walaupun
. (2)
sebenarnya proyek ini telah dibuat
Keterangan :
sebelumnya oleh E.B. Hunt, J. Marin,
S : himpunan kasus
dan P.T. Stone. Kemudian Quinlan
A : atribut
membuat algoritma dari pengembangan
n : jumlah partisi atribut A
ID3 yang dinamakan C4.5 yang berbasis
|Si| : jumlah kasus pada partisi ke-i
supervised learning. Ada beberapa tahap
|S| : jumlah kasus dalam S
dalam membuat sebuah pohon keputusan dengan algoritma C4.5 (Kusrini & Luthfi, 2009), yaitu : 1. Menyiapkan
data
yang
sebelumnya
training.
Data
pernah
terjadi
dan
sudah
dikelompokkan ke dalam kelas-kelas tertentu.
berhenti saat : a. Semua tupel dalam node N mendapat kelas yang sama. b. Tidak ada atribut di dalam tupel yang dipartisi lagi. c. Tidak ada tupel di dalam cabang
2. Menentukan akar dari pohon. Akar akan
tupel terpartisi. 5. Proses partisi pohon keputusan akan
training biasanya diambil dari data histori
4. Ulangi langkah ke-2 hingga semua
diambil
dari
atribut
yang kosong.
yang
terpilih,dengan cara menghitung nilai
Evaluasi dan Validasi pada Algoritma
Gain dari masing-masing atribut, nilai
Klasifikasi Data Mining
Gain yang paling tinggi yang akan
Evaluasi adalah kunci untuk membuat
menjadi
Sebelum
program nyata dalam data mining (J.
menghitung nilai Gain dari atribut,
Han and M. Kamber, 2006). Untuk
59JURNAL
akar
pertama.
TEKNIK - UNISFAT, Vol. 7 No. 2, Maret 2012 Hal 57 - 64
59
menentukan mana yang akan digunakan
Tabel 1 Confusion Matrix dari Dua
pada suatu masalah tertentu, perlu cara-
Kelas Prediksi
cara
sistematis
untuk
mengevaluasi
bagaimana metode-metode yang berbeda bekerja
dan
membandingkan
Predicted Class C1 C2 Actual C1 True False Class Positive Negative – TP – FN False True C2 Positive Negative – FP – TN
satu
dengan yang lain (J. Han and M. Kamber, 2006). Evaluasi dan validasi pada algoritma klasifikasi data mining adalah Confusion Matrix dan ROC (Receiver
Operating
Characteristic)
Curve.
Setelah data uji dimasukkan ke dalam confusion matrix, hitung nilai-nilai yang telah
Confusion matrix
tersebut
berguna untuk menganalisis bagaimana (classifier)
dapat dilihat pada persamaan 3 (F. Gorunesco, 2011) :
dapat
mengenali tuple-tuple pada kelas-kelas
……….. (3)
yang berbeda (J. Han and M. Kamber, 2006).
Dalam
untuk
dihitung accuracy. Rumus accuracy
Confusion matrix adalah alat yang
pengklasifikasi
dimasukkan
kasus
dengan
dua
dimana :
klasifikasi data keluaran, seperti contoh
TP
=
true positive
“C1” dan “C2”, atau contoh lainnya, tiap
TN
=
true negative
kelas yang diprediksi memiliki empat
FP
=
false positive
kemungkinan keluaran yang berbeda,
FN
=
false negative
yaitu true positive (TP), true negative (TN), false positive (FP) dan false
Receiver Operating Characteristic
negatif (FN) menunjukkan ketepatan
(ROC) Curve
klasifikasi. Confusion Matrix dari dua
ROC Curve adalah peralatan visual yang
kelas prediksi dapat dilihat pada tabel 1
berguna untuk membandingkan dua
(J. Han and M. Kamber, 2006).
model-model klasifikasi (J. Han and M. Kamber, 2006).
Nilai ROC (Receiver
Operating Characteritics) Curve sering
TEKNIK - UNISFAT, No. 2, Diagnosis Maret 2012Penyakit Hal 57 -Kanker 64 Penerapan Algoritma KlasifikasiVol. C4.57 Untuk Payudara 60JURNAL – Laily Hermawanti
60 60
digunakan untuk menilai hasil dari
Dalam
prediksi
Berikut
digunakan keputusan 2 kelas (klasifikasi
penjelasan singkat tentang ROC (F.
biner), salah satu objek digambarkan
Gorunesco, 2011) :
satu elemen yang saling berpasangan
berupa
1. Kurva
grafik.
ROC
pertama
kali
permasalahan
klasifikasi
yaitu positive atau negative. Model
dikembangkan oleh teknik elektro dan
klasifikasi
radar dalam perang dunia II untuk
penamaan label pada class. Kurva ROC
mendetesi
dalam
juga dikenal sebagai grafik ROC yaitu
benteng pertahanan (contohnya: cerita
grafik 2 dimensi yang mana TP rate
pearl harbor yang diserang tahun
adalah plot untuk Y-axis dan FP rate
1941, atau masalah operator penerima
adalah plot untuk X-axis. Grafik ROC
radar di inggris)
(discrete dan continuous) dapat dilihat
objek
musuh
2. ROC sudah lama digunakan dalam
yang
lain
yaitu
dengan
pada Gambar 2 (F. Gorunesco, 2011).
teori deteksi sinyal. 3. ROC
sering
digunakan
dalam
penelitian kesehatan. 4. ROC juga sering digunakan dalam penelitian machine learning dan data mining (salah satu pendahulu yang menggunakan ROC dalam machine learning adalah Spackman, seseorang
Gambar 2 ROC (Discrete dan
yang mendemonstrasikan nilai dari
Continuous)
kurva ROC dalam evaluasi dan perbandingan algoritma) 5. Dalam permasalahan
Pada gambar 2, ruang ROC dipisah oleh klasifikasi,
garis diagonal hasil ROC dikategorikan
ROC merupakan dasar kinerja dari
ke dalam “good classification” jika poin
teknik
berada di atas garis diagonal begitu juga
untuk
pengorganisasian klasifikasi
visualisasi, dan
pemilihan
sebaliknya
“poor
classification” jika poin berada di bawah garis
diagonal.
bahwa satu
61JURNAL
dikategaorikan
TEKNIK - UNISFAT, Vol. 7 No. 2, Maret 2012 Hal 57 - 64
Dapat
disimpulkan
poin dalam
ruang ROC
61
lebih baik daripada jika satu poin ke
akurat, maka penentuan jenis dan
utara-selatan dari persegi (jika TP rate
sumber
lebih tinggi dan FP rate lebih rendah
Dataset penyakit kanker payudara
atau kedua-duanya). Kurva ROC adalah
yang digunakan adalah Wisconsin
alat dua dimensi yang digunakan untuk
Breast Cancer (WBC) dari UCI
menilai kinerja klasifikasi. ROC sering
Dataset Repository.
digunakan untuk perbandingan model
data
sangatlah
penting.
2. Pengolahan Awal Data (Data Pre-
klasifikasi. Kategori klasifikasi untuk
processing)
mencari akurasi dengan menggunakan
Data yang didapat diolah untuk
AUC (Area Under Curve) dapat dilihat
mendapatkan atribut yang relevan dan
pada Tabel 2 (F. Gorunesco, 2011).
sesuai. 3. Metode Yang Diusulkan (Proposed
Tabel 2 Kategori Klasifikasi dengan menggunakan hasil AUC Nilai AUC 0.90 - 1.00 0.80 - 0.90 0.70 - 0.80 0.60 - 0.70 0.50 - 0.60
Kategori Klasifikasi sangat baik (excellent classification) Klasifikasi baik (good classification) Klasifikasi sama (fair classification) Klasifikasi rendah (poor classification) Klasifikasi gagal (failure classification)
Model/Method) Tahap ini akan membahas metode yang akan digunakan untuk penelitian ini.
Dalam
penelitian,
setelah
dilakukan studi literatur dari buku dan jurnal, ditemukan bahwa salah satu cara
yang
dapat
mengklasifikasikan
membantu diagnosis
penyakit kanker payudara dari UCI Dataset
Repository
dengan
menggunakan algoritma C4.5. 4. Eksperimen
dan
Pengujian
METODE PENELITIAN
Model/Metode (Method Test and
Metode penelitian pada penelitian ini
Experimen)
sebagai berikut:
Metode eksperimen dan pengujian ini
1. Pengumpulan Data (Data Gathering)
dengan algoritma C4.5.
Tahap ini dilakukan sebagai langkah awal
dari
suatu
penelitian.Untuk
5. Evaluasi dan Validasi Hasil (Result Evaluation)
memperoleh data yang benar-benar
Penerapan Penyakit Payudara TEKNIK -Klasifikasi UNISFAT, C4.5 Vol. Untuk 7 No. 2,Diagnosis Maret 2012 Hal 57Kanker - 64 JURNAL Algoritma 62 – Laily Hermawanti
6262
Tahap ini akan membahas tentang hasil evaluasi dari eksperimen yang telah
dilakukan.
Pengujian
Accuracy =
TP+TN TP+TN+FP+FN
hasil =
implementasi dengan menggunakan
437+224 437+224+21+17
model ROC CURVE (AUC). Hasil
=
661 : 699
pengujian yang di dapat dari metode
=
94.56%
Confusion Matrix adalah akurasi. Berdasarkan hasil perhitungan, tingkat EVALUASI DAN VALIDASI PADA
akurasi menggunakan algoritma C4.5
ALGORITMA C4.5
sebesar 94.56%.
Penelitian ini evaluasi dan validasi hasil menggunakan
confusion
matrix
(accuracy) dan ROC Curve.
Kurva ROC (Receiver Operating Characteristic) Grafik ROC dengan nilai AUC (Area
Confusion Matrix Tabel Confusion Matrix algoritma C4.5 menggunakan software RapidMiner dapat dilihat pada Tabel 3.
Under Curve) dengan algoritma C4.5 sebesar 0.941 dapat dilihat pada gambar 3.
Nilai
AUC
termasuk
kategori
"klasifikasi sangat baik" karena nilainya 0.941.
Tabel 3. Confusion Matrix algoritma Naive Bayes menggunakan RapidMiner
Dari tabel 3, dapat dihitung nilai accuracy sebagai berikut : TP = 437
FN = 17
FP = 21
TN = 224
63JURNAL
Gambar 2. Nilai AUC dalam grafik ROC dengan Algoritma Naive Bayes
TEKNIK - UNISFAT, Vol. 7 No. 2, Maret 2012 Hal 57 - 64
63
Analisa dan Validasi Model Penggunaan algoritma C4.5 akurasinya
Saran
tinggi
Untuk menambah akurasi algoritma,
dalam
mendiagnosis
kanker
payudara, dapat dilihat pada tabel 4.
akan lebih baik apabila dioptimasi
Tabel 4. Analisa hasil evaluasi dan
dengan algoritma seperti Particle Swarm
validasi
optimization (PSO), Genetic Algorithm (GA)
Algoritma C4.5 Accuracy AUC
ataupun
algoritma-algoritma
optimasi yang lain pada algoritma C4.5 supaya didapatkan hasil akurasi yang
94.56% 0.941
lebih tinggi.
Tabel 4 menunjukkan analisa evaluasi
DAFTAR PUSTAKA
hasil C4.5 nilai akurasi sebesar 94.56%
E. Technical and P. Series, Guidelines
dan nilai AUC sebesar 0.941.
for management of breast cancer. World Health Organization, 2006.
KESIMPULAN DAN SARAN
Kusrini,
Kesimpulan Setelah
dilakukan
&
Luthfi,
Algoritma evaluasi
dengan
E.
Data
T.
(2009). Mining.
Yogyakarta: Andi Publishing.
algoritma C4.5, hasil akurasinya tinggi.
D. T. Larose, Discovering Knowledge in
Nilai akurasi untuk algoritma klasifikasi
Data: An Introduction to Data
C4.5 senilai 94.56% dan nilai AUC
Mining. United States of America:
untuk algoritma C4.5 senilai 0.941.
John Wiley & Sons, Inc, 2005. J. Han and M. Kamber, Data Mining Concept dan Techniques, 2nd ed. United States of America: Diane Cerra, 2006. F. Gorunesco, Data Mining Concept Model
Technique.
Romania:
Springer, 2011.
TEKNIKKlasifikasi - UNISFAT, Vol. 7 No. Diagnosis 2, Maret 2012 Hal 57 - 64 Payudara 64JURNALAlgoritma Penerapan C4.5 Untuk Penyakit Kanker – Laily Hermawanti
64 64