PENERAPAN ALGORITMA C4.5 UNTUK PENGELOMPOKAN PENYAKIT HASIL DIAGNOSA PASIEN PENGGUNA JAMKESMAS PADA PUSKESMAS KOTAGEDE II
NASKAH PUBLIKASI
diajukan oleh Devanda Anggi Mahardikaraga 12.11.6093
kepada SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER AMIKOM YOGYAKARTA YOGYAKARTA 2015
PENERAPAN ALGORITMA C4.5 UNTUK PENGELOMPOKAN PENYAKIT HASIL DIAGNOSA PASIEN PENGGUNA JAMKESMAS PADA PUSKESMAS KOTAGEDE II Devanda Anggi Mahardikaraga 1), Ema Utami 2), 1) 2)
Teknik Informatika STMIK AMIKOM Yogyakarta
Magister Teknik Informatika STMIK AMIKOM Yogyakarta
Jl Ringroad Utara, Condongcatur, Depok, Sleman, Yogyakarta Indonesia 55283
Email :
[email protected]),
[email protected])
penyebab penyakit yang diderita pasien pengguna JAMKESMAS selama ini. Sehingga nantinya akan sangat membantu pemerintah kecamatan Kotagede dalam menemukan apa yang menjadi penyebabnya dengan tetap memperhatikan dari segala jenis faktornya. Dimana nantinya pihak Puskesmas Kotagede II Yogyakarta dapat bekerja sama dengan pemerintah kecamatan Kotagede untuk melakukan usaha pencegahan dalam bentuk pemeriksaan disertai penyuluhan ketempat-tempat tinggal masyarakat yang kurang mampu. Oleh karena itu di perlukan sebuah sistem yang dapat membantu pihak Puskesmas Kotagede II Yogyakarta dalam menentukan jumlah pasien. Untuk itu penulis membuat “Penerapan Algoritma C4.5 untuk Pengelompokan Penyakit Hasil Diagnosa Pasien Pengguna JAMKESMAS pada Puskesmas Kotagede II”.
Abstract - Community Health Centres (Puskesmas) is one of the public health care facilities are very important in Indonesia. PHC is a technical implementation unit office district / city responsible to organizes health development in the working area. Puskesmas Kotagede II Yogyakarta is a health center every day crowded with visitors JAMKESMAS users. This study was conducted to identify problems and set goals, then take the data with observations and analyzing data by studying some of the existing literature. Data analysis using data mining algorithms C4.5 decision tree method, then made conclusions based on the data analysis and implementation. Rule models produced will be creating an application system that is capable of supporting the prediction system of the patient's diagnosis JAMKESMAS. Application of new data using these implementations produce data corresponding to greater than the predictions do not match, so it can be said that the application system using C4.5 algorithm implementation can be used grouping disease patient diagnosis.
2. PEMBAHASAN 2.1 Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisien dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan pengolahan data yang akurat sehingga bisa langsung digunakan dan dilaporkan. Sistem data mining sebelumnya sudah banyak yang dibuat, tetapi tempat dan program aplikasi yang digunakan berbeda – beda. Adapun sistem data mining yang berkaitan yang pernah dibuat adalah sebagai berikut : Liliana Swastina Judul penelitiannya Penerapan Algoritma C4.5 Untuk Penentuan Jurusan Mahasiswa. Dalam penelitian ini penulis menggunakan metode C4.5 yang kemudian digunakan untuk menentukan jurusan yang akan diambil oleh mahasiswa sesuai dengan latar belakang, minat dan kemampuanya sendiri. Parameter yang digunakan oleh penulis adalah Indeks Prestasi Kumulatid Semester 1 dan Semester 2 [1]. Sri Haryani Meivawati Judul penelitiannya adalah Pertukaran Sosial Dalam Pelaksanaan Program Jaminan Kesehatan Masyarakat (JAMKESMAS). Dalam penelitian penulis ingin mengatahui tingkat kesadaran peserta JAMKESMAS dengan mengetahui jumlah peserta JAMKESMAS. Penulis juga ingin mengetahui pelayanan yang diberikan oleh pihak Rumah Sakit, Puskesmas, dokter, serta petugas yang terkait. Penelitian
Keywords: Data Mining, C4.5 Algorithm, Community Health Centres. 1. PENDAHULUAN Seiring dengan pesatnya perkembangan jaman dan majunya ilmu serta teknologi, maka pesat pula bermunculan instansi-instansi baik itu dalam dunia bisnis, kesehatan, asuransi, perusahaan, perbankan, ataupun instansi pemerintahan. Tidak terkecuali juga dengan instansi dalam yang bergerak dalam bidang dunia kesehatan. Puskesmas Kotagede II Yogyakarta merupakan puskesmas milik pemerintah kota Yogyakarta yang tiap tahunnya menerima banyak pasien kecamatan Kotagede sendiri hingga dari kecamatan sekitarnya, oleh karena itu puskesmas selalu meningkatkan mutu pelayanan terhadap pasien melalui cara melibatkan kemajuan teknologi dalam dunia kesehatan. Dengan meningkatkannya pasien pengguna JAMKESMAS, maka pihak Puskesmas Kotagede II Yogyakarta dapat melihat apa saja yang menjadi
1
dilakukan di Surakarta dengan lima kecamatan sebagai sempelnya dan data yang di gunakan data 2006 – 2007 [2].
3.
Kemudian hitung nilai gain menggunakan rumus :
2.2 Landasan Teori Keterangan : S : Himpunan Kasus A : Fitur n : Jumlah partisi S Pi: Proporsi dari Si terhadap S
2.2.1
Data Mining Data Mining merupakan analisis dari peninjauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda dengan sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik data [1].
4.
2.2.2
Pohon Keputusan (Decision Tree) Pohon keputusan merupakan metode klasifikasi dari prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang mempresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structured Query Language untuk mencari record pada kategori tertentu. Pohon keputusan juga berguna untuk mengeksplorasi data menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target [1].
5.
Ulangi langkah kedua hingga semua record terpartisi. Proses partisi keputusan akan berhenti saat : a. Semua record dalam simpul N mendapat kelas yang sama. b. Tidak ada atribut di dalam record yang dipartisi lagi. c. Tidak ada record di dalam cabang yang kosong.
2.3
Analisis Data Data dari sistem adalah berupa atribut yang dimiliki oleh pasien. Data yang dimaksud adalah data yang mempunyai minimal dua kolom atribut. Satu kolom sebagai kolom atribut masukkan dan satu kolom sebagai kolom atribut target. Dari setiap kolom terdapat nilai-nilai yang akan dipergunakan untuk kalkulasi, dan nilai dari setiap atribut harus bersifat diskret. Ketentuan lain yang harus dipenuhi agar masukkan dapat diproses dengan lancar adalah peletakan kolom target harus berada pada posisi terakhir dari kolom pada tabel masukkan. Sistem akan membaca masukan dengan atribut target berada pada kolom terakhir dari tabel, maka dari itu selain kolom terakhir sistem akan mengenalinya sebagai atribut masukan dari sistem. Beberapa komponen variabel yang digunakan yaitu:
2.2.3
Algoritma C4.5 Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut [1] : 1. Pilih atribut sebagai akar. 2. Buat cabang untuk tiap-tiap nilai. 3. Bagi kasus dalam cabang. 4. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama. Ada beberapa tahap dalam membuat sebuah pohon keputusan dengan algortima C4.5 yaitu [1] : 1. Menyiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumnya dan sudah dikelompokkan ke dalam kelas-kelas tertentu. 2. Menentukan akar dari pohon. Akar akan diambil dari atribut yang terpilih, dengan cara menghitung nilai gain dari masing-masing atribut, nilai gain yang paling tinggi yang akan menjadi akar pertama. Sebelum menghitung nilai gain dari atribut, hitung dahulu nilai entropy. Untuk menghitung nilai entropy digunakan rumus :
1. Umur Variabel ini berisi seluruh kemungkinan umur dari setiap data yang dimiliki oleh pasien untuk diisi pada proses input program. Nilai yang sudah ditentukan pada program ini adalah 15-24thn, 25-44thn, 45-64thn, 65+thn. 2. Jenis Kelamin Variabel ini berisi data jenis kelamin dari pasien yang digunakan untuk pembentukan keputusan. Pengelompokkan yang ada berdasarkan ketentuan yang dibuat program yaitu L (laki-laki) dan P (Perempuan). 3. Tahun Variabel ajaran berisi seluruh kemungkinan tahun berobat dari setiap pasien. Variabel yang sudah ditentukan pada program berdasarkan hasil pengelompokan survei yaitu tahun 2012 dan 2013.
Keterangan : S : Himpunan Kasus A : Atribut B : Jumlah partisi atribut A |Si| : Jumlah Kasus pada partisi ke-i |S| : Jumlah Kasus dalam S
4. Gejala Variabel ini berisi data pasien berdasarkan gejala – gejala yang terjadi pada pasien. Ada beberapa gejala 2
yang sama tetapi juga ada beberapa gejela yang tidak sama. Pada gejala ini yang diambil ada 7 gejala untuk menenukan hasil diagnosa pasien selain melihat dari umur, jenis kelamin serta tahun. Data yang didapatkan merupakan data lama pasien. Data gejala yang diambil meliputi antrofi, batuk, sesak nafas, mual & muntah, demam, sakit kepala, menggigil. Pengelompokkan berdasarkan ketentuan yang dibuat program memiliki 2 nilai yaitu ya dan tidak.
Tabel 1 Hasil Perhitungan Entropy dan Gain
5. Jenis Penyakit Variabel ini merupakan data yang berfungsi untuk menentukan hasil keputusan. Dalam pengelompokan data sudah ditentukan secara tetap agar tidak terjadi kesalahan dalam perhitungan proses program. Data keputusan memiliki 2 buah nilai yaitu “Infeksi” dan “Degeneratif”.
2.4 2.4.1
Analisis Model Kebutuhan Masukan Kebutuhan masukan dari sistem adalah berupa atribut yang dimiliki oleh nilai atribut dan nilai kemungkinannya yang dibuat kedalam sebuah data tabel. Data tabel yang dimaksud adalah data yang mempunyai minimal dua kolom atribut. Satu kolom atribut masukan dan satu kolom sebagai atribut target. Dari setiap kolom terdapat nilai-nilai yang akan dipergunakan untuk kalkulasi dan nilai dari setiap atribut harus bersiat rahasisa. Ketentuan lain yang harus dipenuhi agar masukan dapat diproses dengan lancar adalah peletakan kolom target harus berada pada posisi terakhir kolom pada tabel masukan. Sistem akan membaca masukan dengan atribut target berada pada kolom terakhir dari tabel. Maka dari itu selain kolom terakhir sistem akan mengenalinya sebagai atribut masukan dari sistem. Berikut adalah data untuk menentukan pengelompokan hasil diagnosa pasien dengan nilai kemungkinannya. Berikut ini adalah penjelasan lebih terperinci mengenai tiap-tiap langkah dalam pembentukan pohon keputusan dengan menggunakan algoritma C4.5. Salah satu proses kalkulasi dari entropy adalah proses kalkulasi nilai entropy diagnosa yaitu dengan jumlah sampel 150 data.
Dari tabel hasil kalkulasi di atas dapat kita lihat hasil entropy dan gain yang diperoleh dari masingmasing atribut. Dan dapat kita lihat juga hasil pohon keputusan berdasarkan kolom node yang dihasilkan. Pada node pertama di dapatkan variable Umur sebagai pohon pertama. Pohon pertama ditentukan dari melihat hasil gain terbesar. Setelah itu untuk menentukan hasil keputusan akhir dapat dilihat dari hasil entropy yang hasilnya nol. Apabila telah di dapat hasil entropy nol maka selanjutnya kita lihat hasil variable keputusan yang paling banyak nilainya. Sehingga terbentuklah decision tree seperti berikut :
3
Gambar 1 Hasil Akhir Pembentukan Cabang Pohon Keputusan 2.5 2.5.1
Perancangan Alur Sistem Diagram Konteks Diagram konteks merupakan diagram yang menggambarkan aliran data secara garis besar yang direpresentasikan dengan lingkaran tunggal yang mewakili keseluruhan sistem. Diagram ini mencatat data yang masuk ke sistem beserta sumbernya serta informasi yang dihasilkan sistem beserta tujuannya. Pada diagram konteks ini hanya terdapat sebuah proses yaitu Pengolahan Data diagnosa dan dua entitas yaitu Karyawan dan Pasien. Seperti Diagram Konteks yang ada dibawah ini:
Gambar 3 Data Flow Diagram (DFD) Level 0 2.6
Impelementasi Sistem Implementasi sistem merupakan tahap meletakkan sistem yang dikembangkan setelah melakukan analisis dan rancangan sistem, supaya nantinya sistem yang baru tersebut siap untuk dioperasikan oleh user atau pengguna sistem sesuai dengan yang direncanakan dan diharapkan. 2.6.1 Implementasi Program 2.6.1.1 Manual Program 1. Tampilan Halaman Login
Gambar 2 Context Diagram 2.5.2
Data Flow Diagram (DFD) Data Flow Diagram (DFD) adalah bagan atau alat perancangan sistem yang menggambarkan sebuah logika dan alur pada sebuah sistem. DFD merupakan langkah yang digunakan untuk menurunkan diagram konteks dalam bentuk lebih detail. Model ini menggambarkan sistem sebagai jaringan kerja antar fungsi yang saling berhubungan dengan aliran data dan penyimpanan data. Pada sistem ini digunakan DFD level 0 seperti gambar di bawah ini.
Gambar 5 Form Login
4
data berdasarkan tahun dan jenis kelamin dari pasien untuk mengetahui jumlah pasien.
2. Tampilan Halaman Utama
1. 2. 3. 4.
Tahun 2014 & Jenis Kelamin L Tahun 2014 & Jenis Kelamin P Tahun 2015 & Jenis Kelamin L Tahun 2015 & Jenis Kelamin P
= 15 pasien = 45 pasien = 25 pasien = 65 pasien
Nilai yang dihasilkan memiliki akurasi lebih dari 95% dan bisa dibuktikan dengan melihat pada fitur tampilkan pada halaman penentu keputusan maka data akan terlihat mulai dari umur, gejala serta jenis penyakitnya.
Gambar 6 Halaman Utama 3. Tampilan Halaman Menu Data Pasien
Berikut ini gambar hasil prediksi dari pengujian sistem pada kasus di atas.
Gambar 7 Halaman Data Pasien 4. Tampilan Halaman Lihat Data Pasien Gambar 12 Penentu Keputusan Berdasarkan hasil perbandingan di atas, nilai yang dihasilkan oleh program memiliki akurasi 95%, dilihat dari perhitungan Ms.Excel dengan perhitungan pada aplikasi, beserta screenshot sebagai bukti akurasi. Oleh karena itu, dapat disimpulkan program ini dapat diimplementasikan di lapangan. 2.6.3
Pemeliharaan Sistem Meskipun aplikasi telah dirancang, dibangun dan diuji coba, pemeliharaan sistem diperlukan untuk memperbaiki, menjaga, menanggulangi, mengembangkan sistem yang ada . Pemeliharaan ini berfungsi meningkatkan efesiensi dan efektifitas kinerja yang ada agar dalam penggunaannya dapat bekerja secara optimal. Tindakan ini juga memungkinkan sistem untuk memenuhi syarat pemakaian yang sebelumnya tidak dikenal, ketika membuat perubahan bagian yang perlu diubah, petugas pmeliharaan juga menggunakan kesempatan untuk mengupgrade kode, mengganti cabang – cabang yang sudah kadaluarsa, memperbaiki kecerobohan, dan mengembangkan dokumentasi.
Gambar 8 Halaman Lihat Data Pasien
2.6.2
Uji Coba Program dan Sistem
Berikut ini pengujian berdasarkan masing-masing form: 1. Form Pohon Keputusan Pengujian dilakukan dengan menampilkan pohon keputusan yang terbentuk dari hasil olah data sistem. Berikut ini hasil dari pohon keputusan :
Gambar 11 Hasil Pohon Keputusan 2. Form Penentu Keputusan Pengujian dilakukan mengelompokan
dengan
cara
5
3 3.1
PENUTUP Kesimpulan Berdasarkan penjelasan dari bab – bab sebelumnya, kesimpulan yang dapat diambil dalam pengerjaan skripsi ini adalah :
DAFTAR PUSTAKA [1] Kusrini, Luthfy, E.T. 2009. Algoritma Data Mining.Yogyakarta : Andi. [2] Kadir, Abdul. 2008. Belajar Database Menggunakan MySQL. Yogyakarta: Andi Offset. [3] Jogiyanto, HM. 2005. Analisis dan Desain Sistem Informasi. Yogyakarta: Andi Offset
1. Langkah pertama dalam menerapkan Algoritma C4.5 untuk pengelompokan hasil diagnosa pasien pengguna JAMKESMAS adalah memahami teori dari Data Mining khususnya Algoritma C4.5. 2. Pengambilan data sampel di Puskesmas Kotagede II. 3. Melakukan transformasi data dan menyortir data sehingga mudah untuk diolah. 4. Mengimplemantasikan data-data yang telah didapat dari objek kedalam rumus algoritma C4.5. Mendapatkan pohon keputusan sesuai dengan alur algoritma C4.5.
Biodata Penulis Devanda Anggi Mahardikaraga, memperoleh gelar Sarjana Komputer (S.Kom), Jurusan Teknik Informatika STMIK AMIKOM Yogyakarta, lulus tahun 2015. Ema Utami, memperoleh gelar Sarjana Sains (S.Si), Jurusan Ilmu Komputer Universitas Gajah Mada Yogyakarta, lulus tahun 1997. Memperoleh gelar Magister Komputer Universitas Gajah Mada Yogyakarta, lulus tahun 2010. Memperoleh gelar Doktor Universitas Gajah Mada Yogyakarta, lulus tahun 2010. Saat ini menjadi Dosen di STMIK AMIKOM Yogyakarta.
3.2
Saran Mengingat keterbatasan yang dimiliki oleh penulis, baik pengetahuan, waktu maupun pemikiran, maka penulis dapat memberikan beberapa gambaran sebagai saran yang dapat dipakai sebagai acuan dalam pengembangan aplikasi di masa yang akan datang, antara lain:
1. Selama melakukan penelitian ada variabel yang dibutuhkan namun dari pihak rumah sakit masih sedikit data mengenai gejala – gejala yang di derita pasien. 2. Diperlukan pula variabel lain yang memungkinkan mempengaruhi dalam memprediksi jenis penyakit seperti uji tes pada pasien. Sebaiknya data yang ditambahkan ke dalam sistem di update secara berkala untuk menghasilkan data yang lebih akurat.
6