CONTOH KASUS DATA MINING
CONTOH KASUS DATA MINING Sebuah rumah sakit ingin ingin menekan biaya perawatan pasien tanpa mengurangi kualitas pelayanan. Salahsatu potensi yang dapat dimanfaatkan pada penerapan data mining di rumah sakit adalah mengidentifikasi atribut-atribut penentu biaya pasien rawat inap. Dengan mengetahui atribut penentu biaya rawat, diharapkan pihak manajemen rumah sakit dapat melakukan kontrol terhadap biaya, sehingga ongkos perawatan pasien dapat ditekan tanpa mengurangi kualitas pelayanan. Untuk mengidentifikasi atribut penentu biaya pasien rawat inap, digunakan data kunjungan pasien rawat inap RSUP Dr. Cipto Mangunkusumo dengan jaminan Jamkesmas periode 1 Januari 2009 s/d 30 September 2010 daridatabase SIMRS sebanyak 2022 kunjungan (jumlah sebelum dilakukan data cleaning 8383). Dengan teknik analisa Atttibute Importance (AI) didapatkan atribut-atribut penentu biaya dengan urutan sebagai berikut: prosedur medis 1 (AI=0,16), prosedur medis 4 (AI=0,15), prosedur medis 3 (AI=0,14), LOS (AI=0,13), prosedur medis 2 (AI=0,13), organisasi (AI=0.10), diagnosa utama (AI=0,08), jenis kelamin (AI=0.02) dan status kawin (AI=0.01). Hasil klasifikasi dengan teknik Algoritma Naive Bayes menunjukkan model yang dibuat memiliki predictive confidence sebesar 50,41%. I. Pendahuluan Perkembangan teknologi informasi yang pesat terutama di sektor kesehatan memungkinkan data dalam jumlah besar terakumulasi dengan cepat. Saat ini berbagai rumah sakit sudah mulai menerapkan sistem informasi rumah sakit berbasis komputer untuk mendukung manajemen keuangan (khususnya billing systems) [1]. Untuk rumah sakit yang sudah mapan sistem informasinya bahkan mulai memperluas kebutuhannya untuk membangun sistem informasi klinik. Pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai “rich of data but poor of knowledge”, karena data yang terkumpul itu hanya digunakan untuk kebutuhan operasional saja, bahkan tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan menjadi “kuburan data” (data tombs). Untuk melakukan analisa data dalam jumlah besar yang tersimpan pada database, biasanya digunakan teknik data mining. Meski telah umum digunakan pada industri keuangan dan telekomunikasi, teknik data mining mulai diterapkan secara intensif di sektor kesehatan. Sebagai contoh, Mayo Clinic bekerja sama dengan IBM menerapkan teknik data mining pada pasien dengan kesamaan jenis kelamin, usia dan riwayat kesehatan untuk mengetahui respon terhadap pengobatan tertentu .[2] Teknis data mining dapat kita lihat sebagai hasil dari evolusi alamiah teknologi informasi.
2. PROSES DATA MAINING Pada bagian ini akan dijelaskan proses data mining yang terdiri dari beberapa tahap .
1. Pembersihan data (data cleaning), untuk membersihkan noise dan data yang tidak konsisten. Dalam kasus ini membersihkan data-data pasien yang sudah dihapus dan identitas yang tidak lengkap (misal: umur, status marital, pendidikan, diagnosa, dan sebagainya). 2. Integrasi data, penggabungan data dari berbagai sumber; 3. Transformasi data, data diubah menjadi bentuk yang sesuai untuk di mining; 4. Aplikasi teknik data mining, proses inti dimana teknikdata mining diterapkan untuk mengekstrak pola-pola tertentu pada data; 5. Evaluasi pola yang ditemukan; 6. Presentasi pengetahuan, menggunakan teknik visualisasi untuk menampilkan hasil data Mining kepadapengguna (user).
3. Data dan Perangkat Pendukung 3.1 Data Untuk mengidentifikasi atribut-atribut penentu biaya pasien rawat inap, digunakan data kunjungan pasien rawat inap RSUP Dr. Cipto Mangunkusumo dengan jaminan Jamkesmas periode 1 Januari 2009 s/d 30 September 2010 yang diambil dari database SIMRS sebanyak 8383 kunjungan pasien. Setelah dilakukan data cleaning, didapatkan 2022 kunjungan pasien yang layak untuk dianalisa. 3.2. Perangkat Lunak Untuk analisa data mining digunakan perangkat lunak Oracle Data Miner dan database Oracle 11g. 3.3 Metode & Teknik 3.3.1Atribute Importance (AI) Attribute Importance (AI) memberi peringkat atribut dengan menghilangkan atribut yang berulang, tidak relevan, atau tidak informatif dan mengidentifikasi atribut yang mungkin memiliki pengaruh yang paling tinggi dalam membuat prediksi. Gambar 3. AI menggunakan algoritma Minimum Description Length (MDL). Algoritma MDL mempertimbangkan setiap atribut sebagai model prediktif sederhana dari kelas target. Teknik AI digunakan untuk mengoptimalkan analisa model classification dengan mengurangi atribut yang digunakan dan akan meningkatkan kecepatan dan akurasi saat membangun model. 3.3.2. Naive Bayes Algorithm (Classification) Classification adalah proses untuk Menemukan model Atau fungsi yang atau membedakan konsep atau kelas data, Dengan tujuan untuk dapat memperkirakan Kelas dari Suatu objek yang labelnya tidak Berupa aturan “jika--‐maka”. Dalam Teknik classification terdapat beberapa Algoritma yang Bisa digunakan antara lain decision tree,Naive bayes , adaptive naive bayes, logistic regression dan support vector machine. Bayesian Classificationdidasarkan pada Teorema Bayesian. Konsep dasar teori bayes itu pada dasarnya
adalah peluang bersyarat P(H∣X). Dimana dalam Bayesian H adalah posterior dan X adalah prior. Prior adalah pengetahuan kita tentang karakteristik suatu parameter (bisa dibaca sebagai pengalaman di masa lalu atas suatu parameter atau juga bisa berdasarkan teori), sedangkan posterior adalah karakteristik yang akan kita duga pada kejadian yang akan datang. Teorema Bayesian berguna untuk melakukan kalkulasi probabilitas posterior, P(H|X), dari P(H), P(X) dan P(X|H). Teori Bayes adalah sebagai berikut : P(H|X) = P(X|H)P(H) P(X) Proses classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tersebut. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui. [3]
3.3.3 Data Scoring Setelah model dibuat dengan aplikasi data mining, model tersebut bisa digunakan untuk membuat prediksi dari data baru yang dalam hal ini diterapkan untuk memprediksi pola biaya data kunjungan pasien. Model biasanya dibuat dengan menggunakan data historis dari kunjungan pasien sebelumnya. Prosesnya dapat digambarkan sebagai berikut:
4 . Teknik Data Mining 4.1 Persiapan Data Sebelum dilakukan teknik data mining dilakukan eksplorasi data untuk mengetahui distribusi data pasien berdasarkan atribut tertentu (misal: distribusi pasien berdasar umur) dan juga untuk mengidentifikasi data yang tidak normal (outliers). Data divisualisasikan dalam bentuk histogram. Beberapa histogram profil kunjungan pasien ditampilkan sebagai berikut :
Gambar 5. Distribusi berdasar gender
Gambar 6 Distribusi berdasar umur
Gambar 7. Distribusi berdasar unit kunjungan
Keterangan Gambar 7 : 178 = A - Penyakit Dalam 105 = A - Onkologi Obgin 108 = A – Bedah 121 = Kebidanan (IGD) 173 = A - Bedah LT 4 113 = A - Obgin 176 = A - Mata 175 = A - THT 109 = A – Neurologi 101 = PJT - Intermediate Ward Lt. 4
Gambar 8. Distribusi berdasar status kematian (tidak meninggal=0, meninggal=1)
Gambar 9. Distribusi berdasar length of stay (LOS)
Dalam studi ini data kunjungan pasien di RSCM akan diamati atribut-atribut yang akan mempengaruhi pola biaya pasien yang dirawat di RSCM. Untuk biaya di buat skala RENDAH, SEDANG dan TINGGI. Dengan aturan sebagai berikut : Jika Biaya Tagihan < 10 juta Maka Pola biaya RENDAH. Jika Biaya Tagihan >10 juta dan < 50 juta maka biaya SEDANG. Sedangkan jika Biaya tagihan > 10 juta maka pola biaya TINGGI.
Permasalahan pada data yang memiliki banyak atribut seperti data rekam medis pasien adalah tidak semua data akan berkontribusi jika diterapkan model prediktif, bahkan beberapa atribut cenderung mengaburkan hasil (noise). Teknik Attribute Importance (AI) digunakan untuk mengidentifikasi indikator yang paling berpengaruh terhadap pasien dengan pola biaya tinggi atau rendah. Setelah dianalisa menggunakan teknik Attribute Importance
(AI), data akan dianalisa menggunakan teknik klasifikasi menggunakan Algoritma Naïve Bayes yang kemudian akan digunakan untuk melakukan scoring terhadap kasus kunjungan pasien.
4.2 Analisa Menggunakan Teknik Attribute Importance (AI) Attribute Importance (AI) memberikan solusi otomatis untuk meningkatkan kecepatan dan akurasi model klasifikasi yang dibangun di atas tabel data dengan atribut dalam jumlah besar. Atribut untuk menentukan peringkat berdasarkan pada kekuatan korelasi atau hubungan antara atribut prediktor dengan atribut target. Target pada kasus ini adalah mencari faktor yang sangat berpengaruh pada pola beban biaya pasien rawat inap di RSCM (RENDAH, SEDANG, TINGGI). Atribut yang digunakan untuk analisa adalah sebagai berikut :
Tabel 1. Atribut data
Berikut ini merupakan tabel lengkap hasil analisa menggunakan teknik Attribute Importance (AI). Gambar 10. Hasil Analisa Attribute Importance
Tabel 2. Peringkat AI
Dapat dilihat baik dari grafik maupun tabel atribut-atribut yang mempengaruhi besarnya beban biaya pasien dari yang tertinggi sampai yang terendah. Dari hasil analisa dapat diketahui bahwa atribut education, jobclass, sec_diag1, sec_diag2, dan sec_diag3 tidak memiliki pengaruh korelasi signifikan terhadap pola biaya pasien.
1.2 Teknik Klasifikasi (Classification) Menggunakan Algoritma Naive Bayes Teknik Klasifikasi merupakan teknik yang umum digunakan untuk memprediksi outcome yang spesifik dan biasanya bersifat kategorikal. Dalam kasus ini digunakan untuk memprediksi pola biaya RENDAH , SEDANG dan TINGGI. Untuk menganalisa menggunakan teknik ini digunakan atribut hasil analisa menggunakan Attribute Importance (AI). Atribut yang tidak memiliki pengaruh signifikan tidak diikutsertakan dalam analisa ini.
Tabel 3. Atribut data set
Gambar 11 Predictive confidence
Predictive confidence menunjukkan bahwa model yan dibuat menggunakan teknik klasifikasi menggunakan Algoritma Naïve Bayes cukup baik untuk digunakan dengan predictive confidence sebesar 50,41%. Predictive. confidence 50,41 % menandakan bahwa model Naïve Bayes yang dibuat 50,41% lebih baik dari Naïve Rule.
Gambar 12. Akurasi dari model
Pada tabel akurasi menunjukkan bahwa model cukup baik memprediksi kasus pola biaya RENDAH dengan prosentase 83,36 %, kasus pola biaya SEDANG dengan prosentase 64 % dan kasus pola biaya TINGGI dengan prosentase 53,45 %. Average Accuracy sebesar 0.669372 , Overall Accuracy sebesar 0.764488.
Gambar 13. Confusion matrix Pada gambar confusion matrix dapat diketahui ada 461 kasus yang diklasifikasi dengan benar sebagai pola biaya RENDAH dari total 553 kasus, ada 46 kasus yang salah klasifikasi yang seharusnya adalah pola biaya SEDANG tetapi di prediksi sebagai pola RENDAH dan ada 9 kasus yang salah klasifikasi yang seharusnya adalah pola biaya TINGGI diprediksi sebagai pola biaya RENDAH. Untuk pola biaya SEDANG dapat diketahui ada 128 kasus yang diklasifikasi dengan benar sebagai pola biaya SEDANG dari total 200 kasus. Sedangkan untuk pola biaya TINGGI dapat diketahui ada 31 kasus yang diklasifikasi dengan benar sebagai pola biaya TINGGI dari total 58 kasus. Dari model tersebut diterapkan model scoring untuk data yang akan di tes maka hasil nya adalah sebagai berikut (data sample 25 kasus kunjungan pasien):
Tabel 2. Data scoring
Kolom prediction pada tabel diatas adalah nilai target kasus(kunjungan) tersebut dan kolom probability adalah adalah nilai confidence dari prediksi tersebut. Kolom cost merupakan biaya (cost) dari prediksi yang salah, dengan biaya (cost) yang rendah berarti probabilitas yang tinggi.
1.
Kesimpulan Pada paper ini telah dilakukan studi dengan menggunakan teknik Attribute Importance (AI) untuk mengetahui peringkat atribut yang berpengaruh terhadap pola biaya data kunjungan pasien yang didefinisikan sebagai kelas target RENDAH, SEDANG dan TINGGI. Dengan mengetahui atribut-atribut yang mempengaruhi biaya tinggi, maka manajemen rumah sakit dapat lebih memfokuskan program efisiensi pada prosedur-prosedur medis berbiaya tinggi dan mengurangi LOS. Percobaan kedua adalah dengan membuat model menggunakan teknik classification dengan Naive Bayes yang kemudian digunakan untuk memprediksi pola biaya pada data kunjungan pasien yang akan datang (scoring data). Dengan model prediksi biaya tersebut, dapat diperkirakan biaya pasien rawat inap pada saat awal kunjungan. Informasi perkiraan biaya tersebut bermanfaat bagi pihak pasien, karena dapat mempersiapkan pembiyaan dan pihak rumah sakit karena dapat mengetahui perkiraan biaya dan sumberdaya yang harus disiapkan untuk merawat pasien.