Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
ISSN: 2338-3887
ALGORITMA C4.5 BERBASIS ADABOOST UNTUK PREDIKSI PENYAKIT JANTUNG KORONER Adi Suwondo 1) Dian Asmarajati 2) Heri Surahman 3) Program Studi Teknik Informatika, Fakultas Teknik dan Ilmu Komputer Universitas Sains Al-Quran Jawa Tengah di Wonosobo 1,2,3) Jl. Raya Kalibeber Km.03 Mojotengah, Wonosobo Telepon (0286) 3326102 E-mail:
[email protected] 1) E-mail:
[email protected] 2) E-mail:
[email protected] 3) ABSTRACT The pattern of symptoms of coronary heart disease (CHD) are so numerous and varied, so that predition of the disease is still less accrurate. Many methods used in this case, one of them data mining. Data mining is a method of extracting or “mining” knowledge from large amounts of data. Techniques use in data mining is based AdaBoost algorithm C4.5. Adaboost based C4.5 algorithm will be used to classify the pattern of symptoms of coronary haerat disease with the addition of aboosting method to obtain higher accuracy value. C4.5 uses anormalization to get te information (entropy difference) and the results of the election is used to separate the attributes of the data. Attributes that have the highest normalized information is one that is used to make decisions. While AdaBoost is a boosting algorithm that is used to bulid the strength of the classification as a linier combination. Therefore in this study will try to predict coronary heart disease (CHD) with 195 general chek-up of data taken from the Avisena Wonosobo laboratory database. The framework used in this study is Rapid Miner Keywords : Coronary Heart Disease (CHD), Datamining, C4.5, AdaBoost, Rapid Miner PENDAHULUAN Faktor risiko penyakit kardiovaskular sekarang sudah signifikan dalam semua populasi [2]. Di Indonesia telah terjadi pergeseran kejadian penyakit jantung dan pembuluh darah dari urutan ke-10 pada tahun 1980 menjadi urutan ke13 pada tahun 1986 [1]. Sedangkan sebagai penyebab kematian tetap menduduki peringkat ke-3. Pada penelitian ini mengambil data pasien general chek up dari laboratorium Avisena dari tahun 2010 hingga 2011, teknik yang digunakan adalah decision tree dengan menambahkan metode boosting didalamnya yakni adaboost [6]. Adaboost digunakan dengan alasan metode ini dapat mingkatkan ketelitian dalam proses klasifikasi dan prediksi dengan cara membangkitkan kombinasi dari suatu model, dengan memilih model yang memiliki nilai bobot paling besar. Berdasarkan latar belakang yang telah diuraikan di atas, dapat dirumuskan bahwa Prediksi penyakit jantung koroner dengan algoritma C4.5 belum menunjukkan nilai akurasi tinggi. Sedangkan pertanyaan penelitian (question research) pada penelitian ini adalah Bagaimana penerapan Adaboost pada algoritma C4.5 dapat meningkatkan akurasi pada prediksi penyakit jantung koroner?. Tujuan penelitian ini adalah untuk menerapkan AdaBoost pada Algoritma C4.5 untuk meningkatkan akurasi prediksi penyakit jantung koroner” Manfaat dari penelitian ini adalah manfaat praktis dari penelitian ini adalah staff medis dapat menggunakan model yang telah dikembangkan untuk memprediksi penyakit jantung koroner pada pasien, serta manfaat teoritis hasil penelitian ini adalah penerapan Adaboost pada algoritma C4.5 dalam pemodelan yang berkaitan dengan klasifikasi faktor risiko penyakit jantung koroner, dan manfaat kebijakan penelitian ini diharapkan dapat digunakan pada lembaga laboratorium Avisena Wonosobo. Kontribusi yang diharapkan dapat diberikan dari penelitian ini adalah dengan penerapan Adaboost pada algoritma C4.5 akan meningkatkan prediksi penyakit jantung koroner berdasarkan faktor risiko dengan lebih akurat.
LANDASAN TEORI 1.
Data Mining Secara sederhana, data mining merupakan penggalian atau "pertambangan" pengetahuan dari sejumlah besar data [7]. Data mining merupakan bagian dari proses Knowledge Discovery from Data (KDD). 1
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
1. 2. 3. 4. 5. 6. 7.
2.
ISSN: 2338-3887
Penemuan pengetahuan sebagai suatu proses memiliki urutan sebagai berikut [7]: Data Cleaning (untuk menghilangkan noise dan data yang tidak konsisten) Data Integration (di mana beberapa sumber data dapat dikombinasikan) Data Selection (di mana data yang relevan dengan penelitian yang akan diambil) Data transformation (dimana data diubah atau dikonsolidasikan ke dalam bentuk yang sesuai untuk pertambangan dengan melakukan operasi ringkasan atau agregas) Data mining (proses esensial dimana metode cerdas yang diterapkan dalam rangka untuk mengekstrak pola data) Pattern Evaluation (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan Knowledge Presentation (di mana visualisasi dan teknik representasi pengetahuan digunakan untuk menyajikan pengetahuan kepada pengguna)
Algoritma C4.5 Secara umum, decision tree adalah suatu gambaran pemodelan dari suatu persoalan yang terdiri dari serangkaian keputusan yang mengarah ke solusi. Tiap simpul dalam menyatakan keputusan dan daun menyatakan solusi. Adapun pemodelan pohon yang biasa dipakai dalam pohon keputusan adalah rooted tree (pohon berakar) Pohon berakar adalah pohon yang satu buah simpulnya diperlakukan sebagai akar dan sisi-sisinya diberi arah sehingga menjadi graf berarah. Pada metode decision tree langkah awalnya ialah mencari node yang akan digunakan sebagai akar pohon [7]. Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera dalam persamaan 1. | | ( , )= ( )− ( ) … … … … … (1) ∗ Dengan : S : Himpunan kasus A : Atribut n : Jumlah partisi atribut A |Si| : Jumlah kasus pada partisi ke i |S| : Jumlah kasus dalam S Sedangkan perhitungan nilai entropy dapat dilihat pada persamaan 2 berikut [7]: ( )=
−
∗
… … … … … … … … … … … … … (2)
Dengan : S : Himpunan Kasus A : Fitur n : Jumlah partisi S pi : Proporsi dari Si terhadap S 3.
AdaBoost pada C4.5 AdaBoost adalah algoritma untuk membangun kekuatan klasifikasi sebagai kombinasi linear, Adaboost merupakan singkatan dari Adaptive Boosting yang dikembangkan oleh Freund dan Schapire [12]. Bentuk umum persamaan Adaboost menggunakan rumus (
4.
)=
(
) … … … … … … … … … … … … … … … … … (3)
CRISP-DM (Cross-Industry Standard Process for Data Mining) Dikembangkan pada tahun 1996 oleh analyst yang mewakili DaimlerChrysler, SPSS, dan NCR [15]. CRISP menyediakan standar proses baku untuk data mining yang dapat diterapkan kedalam strategi pemecahan masalah umum pada bisnis atau pada unit penelitian. Standar baku ini merupakan standar nonproprietary, bebas digunakan siapapun tanpa harus membayar lisensi. Menurut CRISP-DM, sebuah Project Data Mining memiliki Lifecycle yang terdiri dari enam fase, dari keenam fase tersebut adalah: 1. Business / research understanding 2. Data Understanding (Pemahaman terhadap data) 3. Data preparation (persiapan data) 4. Modeling (pemodelan) 5. Evaluation (evaluasi)
2
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
6.
ISSN: 2338-3887
Deployment (penyebaran)
Dalam mengevaluasi data mining menggunakan Cross Validation untuk membuat validasi dari jumlah data untuk data pelatihan dan pengujian yang terbatas [15]. ROC Curve dan Confusion Matrix, ROC Curve dikenal sebagai teknik representasi dalam bentuk grafis dalam mengevaluasi data mining [16]. Confusion Matrix [15] berisi informasi tentang sistem klasifikasi aktualisasi dan prediksi. Kinerja sistem biasanya dievaluasi menggunakan data dalam matriks. Tabel berikut menunjukkan confusion matrix untuk pengklasifikasi dua kelas true positif dan true negatif. 5.
Jantung Koroner dan Faktor Risiko Penyakit jantung koroner (PJK) mempunyai jangka kematian dan kesakitan yang tinggi. Walaupun penyebab dasar terjadinya penyakit jantung koroner belum diketahui dengan pasti, para ahli telah mengidentifikasi sejumlah faktor yang berhubungan dengan terjadinya penyakit jantung yang disebut sebagai faktor risiko. Faktor risiko penyakit jantung koroner ada yang membaginya dalam faktor risiko primer (independen) dan sekunder, [9] yaitu: faktor risiko primer; faktor ini dapat menyebabkan gangguan arteri berupa aterosklerosis tanpa harus dibantu oleh faktor lain (independen), termasuk faktor risiko primer, yaitu hiperlidemi, merokok, dan hipertensi. Dan faktor risiko sekunder; Faktor ini baru dapat menimbulkan kelainan arteri bila ditemukan faktor lain secara bersamaan, termasuk faktor risiko sekunder, yaitu PJK melitus (DM), obesitas, stres, kurang olah raga, alkohol, dan riwayat keluarga. Yang termasuk risiko utama adalah [1]: a. Hipertensi b. Hiperkolesterolemi c. Kolesterol total Kadar Kolesterol Normal Agak tinggi Tinggi (Pertengahan) <200 mg/dl 200 – 239 mg/dl >240 mg/dl d. LDL kolesterol Kadar LDL Normal Agak tinggi (Pertengahan) Tinggi <130 mg/dl 130 – 159 mg/dl >160 mg/dl 5.
HDL Kolesterol Normal
6.
> 45 mg/dl Kadar trigliserida
Kadar HDL Agak tinggi (Pertengahan) 35 - 45 mg/dl
Tinggi >35 mg/dl
Kadar Trigliserida Agak tinggi (Pertengahan) 150 - 250 mg/dl
Normal > 150 mg/dl
Tinggi >500 mg/dl
METODE PENELITIAN Dalam penelitian ini digunakan data catatan rekam medis pada laboratorium Avisena baik yang diduga penderita penyakit jantung koroner maupun orang sehat yang melakukan General Check-up. Dalam penelitian ini menggunakan model Cross-Standard Industry for Data Mining (CRISP-DM) [10]. Klasifikasi Adult Treatment Panel-III, 2001 [11] mengenai kadar kolesterol total, kadar LDL, kadar trigliserida, kadar HDL (dalam mg/dL) adalah sebagai berikut : Tabel 1 Klasifikasi kadar kolesterol total Nilai Atribut Interval Desirable < 200 Borderline 200 – 239 Tinggi ≥ 240
3
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
ISSN: 2338-3887
Tabel 2 Klasifikasi kadar LDL (Low Density Lipoprotein) Nilai Atribut Interval Optimal < 100 Mendekati/ di atas optimal 100 – 129 Borderline tinggi 130 – 159 Tinggi 160 – 189 Sangat tinggi ≥ 190 Tabel 3 Klasifikasi kadar Trigliserida Nilai Atribut Interval Normal < 100 Sedang 100 – 149 Borderline Tinggi 150 – 199 Tinggi 200 – 499 Sangat tinggi ≥ 500 Tabel 4 Klasifikasi kadar HDL (High Density Lipoprotein) Nilai Atribut Interval Rendah < 40 Tinggi ≥ 60 Kemudian dilakukan tahap preparation data, Kemudian data yang dihasilkan setelah proses persiapan data adalah data training yang sudah terklasifikasi seperti pada tabel Tabel 5 berikut: Tabel 5 Data Training hasil dari Proses Preparation No
Trigliserida
HDL
LDL
Kolesterol
Class
1
Normal
Optimal
Rendah
Desirable
PJK
2
Tinggi
Tinggi
Rendah
Tinggi
PJK
3
Borderline Hight
Sangat Tinggi
Tinggi
Tinggi
PJK
4
Normal
di atas Optimal
Rendah
Desirable
PJK
5
Normal
di atas Optimal
Tinggi
Desirable
PJK
6
Normal
Borderline Hight
Tinggi
Tinggi
PJK
7
Borderline Hight
Borderline Hight
Rendah
Borderline
TIDAK
8
Tinggi
Borderline Hight
Rendah
Borderline
TIDAK
9
Borderline Hight
Borderline Hight
Rendah
Tinggi
PJK
10
Normal
Optimal
Tinggi
Desirable
TIDAK
11
Normal
Borderline Hight
Rendah
Desirable
TIDAK
12
Borderline Hight
Tinggi
Rendah
Borderline
TIDAK
13
Borderline Hight
Sangat Tinggi
Rendah
Tinggi
PJK
14
Normal
di atas Optimal
Tinggi
Borderline
TIDAK
15
Borderline Hight
di atas Optimal
Rendah
Desirable
TIDAK
16
Borderline Hight
Optimal
Rendah
Desirable
TIDAK
17
Borderline Hight
Optimal
Tinggi
Desirable
TIDAK
18
Normal
Optimal
Rendah
Borderline
TIDAK
19
Normal
Borderline Hight
Tinggi
Borderline
TIDAK
20
Borderline Hight
Borderline Hight
Tinggi
Borderline
TIDAK
21
Tinggi
di atas Optimal
Tinggi
Borderline
TIDAK
22
Tinggi
Borderline Hight
Tinggi
Borderline
TIDAK
23
Normal
di atas Optimal
Rendah
Borderline
TIDAK
24
Tinggi
Tinggi
Tinggi
Borderline
TIDAK
25
Tinggi
di atas Optimal
Rendah
Borderline
TIDAK
4
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
1.
ISSN: 2338-3887
26
Borderline Hight
di atas Optimal
Tinggi
Borderline
TIDAK
27
Borderline Hight
Optimal
Rendah
Borderline
TIDAK
28
Normal
Optimal
Tinggi
Borderline
TIDAK
29
Normal
Optimal
Rendah
Tinggi
TIDAK
30
Normal
di atas Optimal
Rendah
Tinggi
TIDAK
31
Borderline Hight
Optimal
Rendah
Tinggi
PJK
Tahap Modeling a) Algoritma C4.5 Tahap modeling ini merupakan langkah algoritma untuk membentuk pohon keputusan dengan data pada tabel 5 di atas yakni sebagai berikut: Langkah 1: Menghitung jumlah class, jumlah class untuk PJK dan class untuk TIDAK. Menghitung nilai entropy dari semua class dan menghitung class yang dibagi berdasarkan atribut Trigliserida, LDL, HDL dan Kolesterol. Kemudian dilakukan perhitungan Gain untuk tiap atribut, karna nilai gain tertinggilah yang akan dijadikan sebagai akar. Hasil perhitungan yang pertama ditunjukkan oleh tabel 6 berikut: Tabel 6 Perhitungan Node 1 Jumlah Node PJK TIDAK Entropy Gain Kasus 1 Total 31 9 22 0.869138 Trigliserida 0.01443 Normal 13 4 9 0.890492 Borderline Hight 12 4 8 0.918296 Tinggi 6 1 5 0.650022 Sangat tinggi 0 0 0 0.000000 LDL 0.12718 Optimal 9 2 7 0.764205 di atas optimal 9 2 7 0.764205 Borderline Hight 8 2 6 0.811278 Tinggi 3 1 2 0.918296 Sangat tinggi 2 2 0 0.000000 HDL
0.00911 Rendah Tinggi
18 13
6 3
12 10
0.918296 0.779350
Kolesterol
0.41347
Desirable 8 3 5 Borderline 15 0 15 Tinggi 8 6 2 Kolom entropy pada baris Total dihitung dengan persamaan 2 sebagai berikut: (
)= −
(
) = 0.869138
0.954434 0.000000 0.811278
+ −
Karena untuk menghitung sebuah gain atribut membutuhkan entropy dari setiap kasus pada atribut tersebut maka entropy harus diketahui terlebih dahulu dengan persamaan 2. Langkah 2: Kemudian nilai Gain pada baris Trigliserida dihitung dengan menggunakan persamaan 1 sebagai berikut: (
,
) = 0.869138 −
,
) = 0.01443
0.890492 +
0 (
5
0.918296 +
0.650022 +
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
b)
c)
ISSN: 2338-3887
Algoritma C4.5 dan AdaBoost Langkah kerja AdaBoost dengan menggunakan 31 data yang terbagi dalam 4 atribut yakni Trigliserida, HDL, LDL dan Kolesterol. Pada tabel 5 di atas menunjukkan 9 data dengan class PJK dan 22 data dengan class TIDAK. Dilakukan pencarian bobot untuk masing-masing data menggunakan algoritma AdaBoost sehingga didapatkan tabel bobot seperti pada tabel 7 di bawah: Tabel 7 Pembobotan data oleh AdaBoost Bobot Setelah No Bobot Awal Iterasi I Iterasi II Iterasi III Iterasi VI 1
0.0556
0.0086
0.0116
0.0459
-0.1137
2
0.0556
0.0086
0.0116
0.0459
-0.1137
3
0.0556
0.0086
0.0116
0.0459
-0.1137
4
0.0556
0.0086
0.0116
0.0459
-0.1137
5
0.0556
0.0086
0.0116
0.0459
-0.1137
6
0.0556
0.0086
0.0116
0.0459
-0.1137
7
0.0556
0.0086
0.0116
0.0459
-0.1137
8
0.0556
0.0086
0.0116
0.0459
-0.1137
9
0.0556
0.0086
0.0116
0.0459
-0.1137
10
0.0208
0.0025
0.0042
0.0115
-0.0284
11
0.0208
0.0025
0.0042
0.0115
-0.0284
12
0.0208
0.0025
0.0042
0.0070
-0.0173
13
0.0208
0.0025
0.0042
0.0070
-0.0173
14
0.0208
0.0025
0.0042
0.0042
0.0042
15
0.0208
0.0025
0.0042
0.0070
-0.0173
16
0.0208
0.0025
0.0042
0.0070
-0.0070
17
0.0208
0.0025
0.0042
0.0070
-0.0173
18
0.0208
0.0025
0.0042
0.0070
-0.0173
19
0.0208
0.0025
0.0042
0.0070
-0.0173
20
0.0208
0.0025
0.0042
0.0115
-0.0284
21
0.0208
0.0025
0.0042
0.0115
-0.0284
22
0.0208
0.0025
0.0042
0.0115
-0.0284
23
0.0208
0.0025
0.0042
0.0042
-0.0173
24
0.0208
0.0025
0.0042
0.0042
-0.0105
25
0.0208
0.0025
0.0042
0.0070
-0.0105
26
0.0208
0.0025
0.0042
0.0070
-0.0173
27
0.0208
0.0025
0.0042
0.0115
-0.0070
28
0.0208
0.0025
0.0042
0.0042
-0.0173
29
0.0208
0.0025
0.0042
0.0042
-0.0105
30
0.0208
0.0025
0.0042
0.0070
-0.0105
31 0.0208 0.0025 0.0042 0.0189 -0.0105 Evaluasi Evaluasi menggunakan Cross Validation, ROC Curve dan Confusin Matrix akan dijelaskan selanjutnya.
HASIL PENELITIAN DAN PEMBAHASAN 1.
Pengukuran Penelitian Konfigurasi algoritma C4.5 dan Adaboost yang digunakan adalah: Tabel 8 Konfigurasi C4.5 dan Adaboost C4.5 C4.5 + Adaboost Criteria Information Gain Information Gain Minimal Size for Split 2 2 6
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
Minimal Leaf Size Minimal Gain Maximal Dept Confidence Number of Prepruning Iterations 2.
1 0.1 20 0.25 3 X
ISSN: 2338-3887
1 0.1 20 0.25 3 10
Hasil Penelitian Hasil pengujian akan membentuk pohon keputusan sesuai dengan pengujian yang sudah dilakukan dan menunjukkan akurasi prediksi penyakit jantung koroner antara algoritma C4.5 dan AdaBoost yang dimodelkan dengan pohon keputusan. Algoritma C4.5 dan AdaBoost hasil dari pengujian yang menggunakan tool rapidminer adalah seperti pada gambar 1, 2, 3 dan 4:
Gambar 1 Algoritma C4.5 yang terbentuk dari pengujian menggunakan tool RapidMiner
Gambar 2 Algoritma C4.5 + AdaBoost yang terbentuk dari pembobotan 2.674.
7
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
ISSN: 2338-3887
Gambar 3 Algoritma C4.5 + AdaBoost yang terbentuk dari pembobotan 2.909
Gambar 4 Algoritma C4.5 + AdaBoost yang terbentuk dari pembobotan 0.855 3.
Pengujian Model Nilai akurasi yang ditunjukkan oleh C4.5
Gambar 5 nilai akurasi yang ditunjukkan oleh C4.5 adalah 91.38% Perubahan akurasinya dapat dilihat setelah ditambahkan metode AdaBoost
Gambar 6 nilai akurasi yang ditunjukkan setelah menggunakan metode boosting adalah 94.83% 4.
Kurva ROC (Receiver Operating Characteristic) Gambar kurva di bawah menunjukkan grafik ROC, dimana nilai AUC yang ditunjukkan dari keduanya memiliki nilai akurasi yang cukup baik yakni di atas 0.500. Tabel 9 di bawah menunjukkan status data yang dibaca oleh grafik ROC
8
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
ISSN: 2338-3887
Tabel 9 Status Data yang dibaca oleh ROC Curve No C4.5 C4.5 dan Adaboost 1. PJK PJK 2. PJK PJK 3. PJK PJK 4. PJK PJK 5. PJK PJK 6. PJK PJK 7. PJK PJK 8. TIDAK PJK 9. TIDAK PJK 10. PJK PJK 11. TIDAK TIDAK 12. PJK TIDAK 13. TIDAK TIDAK 14. TIDAK TIDAK 15. TIDAK TIDAK 16. TIDAK TIDAK 17. TIDAK TIDAK 18. TIDAK TIDAK 19. TIDAK TIDAK 20. TIDAK TIDAK 21. TIDAK TIDAK 22. TIDAK TIDAK 23. TIDAK TIDAK 24. TIDAK TIDAK 25. TIDAK TIDAK 26. TIDAK TIDAK 27. TIDAK TIDAK 28. TIDAK TIDAK 29. TIDAK TIDAK 30. TIDAK TIDAK 31. TIDAK TIDAK
Gambar 7 Kurva akurasi C4.5 dan AdaBoost Dari pengujian yang dilakukan di dapatkan hasil seperti pada tabel di bawah ini:
Acuracy Precision Sensitivity Specificity
Tabel 10 Hasil uji C4.5 dengan metode Boosting C4.5 AdaBoost 91.38% 94.83% 97.92% 94.34% 85.71% 62.58% 92.16% 100% 9
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
Recall AUC
92.16% 8.000
ISSN: 2338-3887
100% 1.000
PENUTUP 1.
2.
Kesimpulan Berdasarkan hasil penelitian, analisis dan pengembangan model dalam memprediksi penyakit jantung koroner berdasarkan klasifikasi faktor risiko menggunakan algoritma C4.5 menunjukkan nilai 91.38%, kemudian ditamkahkan metode boosting yakni AdaBoost sehingga nilai akurasi menunjukkan kenaikan sebesar 94.84%. Maka dapat diambil kesimpulan bahwa penambahan metode AdaBoost dalam memprediksi penyakit jantung koroner terbukti memiliki nilai akurasi cukup tinggi yakni 94.84%. Jadi nyata bahwa penerapan AdaBoost pada Algoritma C4.5 dapat meningkatkan akurasi prediksi penyakit jantung koroner Saran Dari hasil pembahasan penelitian ini maka dapat diberikan saran-saran sebagai berikut: 1. Implementasi Algoritma C4.5 berbasis AdaBoost pada data yang memiliki atribut prediksi lebih banyak. 2. Melakukan uji komparasi baik pada algoritmanya maupun metode representasinya yang mungkin dapat diterapkan dalam sistem, sehingga dapat meningkatkan nilai akuarsi yang lebih tinggi di masa mendatang
REFERENSI [1] T. B. Anwar, "Faktor Risiko Penyakit Jantung Koroner," repository.usu.ac.id, p. 15, 2004. [2] (2002) www.who.int. [Online]. http://www.who.int/cardiovascular_diseases/resources/atlas/en/ [3] Minas A. Karaolis, Joseph A. Moutiris, Demetra Hadjipanayi, Constantinos S. Pattichis, "Assessment of the risk factors of coronary heart events based on data mining with decision trees," IEEE Transactions on Information Technology in Biomedicine, v.14 n.3, p.559-566, vol. 14, no. 3, pp. 559-566, May 2010. [4] Jyoti, "Predictive Data Mining for Medical Diagnosis: An Overview of Heart Disease Prediction," International Journal of Computer Applications (0975 – 8887), vol. 17, pp. 1-3, Mar. 2011. [5] M. Kumari and S. Godara, "Comparative Study of Data Mining Classification Methods in Cardiovascular Disease Prediction," International Journal of Computer Sci ence and Technology, vol. 2, no. 2, pp. 304-308, Jun. 2011. [6] C. &. Hall, The Top Ten Algorithms in Data Mining. Boca Raton, London: CRC Press, 2009. [7] Han, J., & Kamber, M., Data Mining Concept and Tehniques., M. Kauffman., Ed. San Francisco, 2006. [8] D. T. Larose, Discovering Knowledge in Data An Introduction to Data Mining. Hoboken, New Jersey: A JOHN WILEY & SONS, INC., 2005. [9] D. T. Larose, Discovering Knowledge in Data: An Introduction to Data Mining. John Willey & Sons. Inc, 2005. [10] Quinlan, JR, C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993. [11] Kusrini, Emha Taufiq Lutfi, Algoritma data Mining. Yogyakarta: Andi Offset, 2009. [12] Tom Mitchell, Machine Learning. Boston: McGraw Hill, 1997. [13] S. Craw, Case Based Reasoning. Berlin, Heidelberg: Springer-Verlag, 2005. [14] Y. Freund and R. E. Schapire, "A Short Introduction to Boosting," Journal of Japanese Society for Artificial Intelligence, vol. 5, no. 14, pp. 771-780, Sep. 1999. [15] P. Chapman, CRISP-DM 1.0: step-by-step data mining guide. SPSS, 2000. [16] I. H. Witten, E. Frank, and M. A. Hall, Data Mining (Practical Machine Learning Tools and Techniques), 3rd ed. Burlington, United States of Amerika: Morgan Kaufman, 2011. [17] I. H. Witten and E. Frank, Data Mining: Practical machine learning tools and techniques, 2nd ed. San Francisco, United States of Amerika: Elsevier Inc., 2005. [18] R. Kohavi and F. Provost, Applications of data mining to electronic commerce. Kluwer Academic Publishers, 2001. [19] M. Clinic. (2010, Aug.) http://www.clinic-medicare.com. [Online]. http://www.clinicmedicare.com/story_detail.php?id=4 [20] Boon NA, Colledge NR, Walker BR and Hunter JAA, avidson's Principles & Practice of Medicine, 20th Edition. Churchill Livingstone, 2006. [21] Kasiman, Sutomo, "Gangguan Metabolisme Lemak dan Penyakit Jantung Koroner," in Pidato Pengukuhan Jabatan Guru Besar Tetap dalam Ilmu Penyakit Dalam pada Universitas Sumatra Utara, Medan, 1997, p. 6. [22] A. Tjokroprawiro, "Diabetes Melitus : capita Selecta 2001-B (Clinical Experiences and Recent Advances).," in , Yogyakarta., 2001. [23] Mohammed M. Mazid, A. B. M. Shawkat Ali, Kevin S. Tickle , "Improved C4.5 algorithm for rule based
10
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
ISSN: 2338-3887
classification," Proceedings of the 9th WSEAS international conference on Artificial intelligence, knowledge engineering and data bases, 2010. [24] Ford ES, Capewell S., "Coronary heart disease mortality among young adults in the US from 1980 through 2002: concealed levelling of mortality rates.," in , 2007. [25] T. Yang, "Computational Verb Decision Trees," International Journal of Computational Cognition, pp. 34-46, 2006. [26] J. Soni, "Predictive Data Mining for Medical Diagnosis: An Overview of Heart Disease Prediction," International Journal of Computer Applications (0975 – 8887), pp. 1-3, 2011. [27] Khusrini and L. E. T., Algoritma Data Mining. Yogyakarta, Indonesia: Andi Publishing, 2009. [28] A. M. Morrison, Receiver Operating Characteristic (ROC) Curve. Boston, United States of Amerika: Massachusetts Water Resources Authority, 2005.
11