PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION
HERWANTO
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006
1
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakan bahwa tesis Pembangunan Sistem Data Mining
untuk
Diagnosis
Penyakit
Diabetes
Menggunakan
Algoritme
Classification Based Association adalah karya saya sendiri dan belum diajukan dalam bentuk apa pun kepada pergu ruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini.
Bogor, September 2006
Herwanto NIM G651034084
2
PEMBANGUNAN SISTEM DATA MINING UNTUK DIAGNOSIS PENYAKIT DIABETES MENGGUNAKAN ALGORITME CLASSIFICATION BASED ASSOCIATION
HERWANTO
Tesis Sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Departemen Ilmu Komputer
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006
3
ABSTRAK HERWANTO. Pembangunan Sistem Data Mining Untuk Diagnosis Penyakit Diabetes Menggunakan Algoritme Classification Based Association. Dibimbin g oleh IMAS S. SITANGGANG dan RINDANG KARYADIN. Basis data rumah sakit umumnya berisi data dalam jumlah besar dengan banyak variasi, tetapi belum dimanfaatkan secara optimal. Diperlukan suatu sistem data mining yang bisa memanfaatkan gunungan data menjadi informasi yang bernilai strategis. Dalam penelitian ini dipelajari bagaimana data bisa digunakan untuk membantu mendiagnosa penyakit, khususnya penyakit diabetes Data-data pasien yang beresiko menderiita penyakit diabetes dikumpulkan ke dalam data warehouse diabetes. Dua tahapan utama yang dilakukan dalam penelitian ini, yaitu proses pembentukan model klasifikasi dan pembuatan program aplikasi untuk mendeteksi penyakit diabetes. Dalam proses pembentukan model klasifikasi ada tiga tahapan yang dilakukan. Tahap pertama adalah menangani data-data yang beragam, tidak lengkap, dan tidak konsisten. Kemudian melakukan proses perubahan data kontinyu menjadi data kategori, dimana setiap variabel dikelompokkan ke dalam sejumlah kategori. Tahap berikutnya adalah membuat rule mining dan klasifikasi. 700 pasien dipilih sebagai data training, 400 pasien dengan diagnosa negatif diabetes dan 300 pasien positif diabetes. Pada pembentukan model klasifikasi dipilih 12 variabel yang digunakan untuk menghasilkan aturan yaitu usia, sex dan hasil-hasil pemeriksaan laboratorium. Didapatkan hasil pemeriksaan glukosa darah 2 jam pasca puasa, glukosa urin 2 jam pasca puasa, serta glukosa darah puasa menjadi penentu utama untuk menentukan apakah pasien positif diabetes atau negatif diabetes. Aturan-aturan yang dihasilkan selanjutnya digunakan dalam program aplikasi untuk mendiagnosa pasien apakah positif diabetes atau negatif diabetes.
.
4
PRAKATA Syukur Alhamdulillah penulis panjatkan kepada Allah SWT atas limpahan rahmat dan karuniaNya sehingga penulis akhirnya dapat menyelesaikan karya ilmiah ini. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Juni 2005 ini adalah sistem data mining, dengan judul Pembangunan Sistem Data Mining
untuk
Diagnosis
Penyakit
Diabetes
Menggunakan
Algoritme
Classification Based Association. Dalam kesempatan ini penulis ingin menyampaikan ucapan terima kasih dan penghargaan kepada Ibu Imas S Sitanggang, S.Si., M.Kom., dan Bapak Rindang Karyadin S.T., M.Kom. selaku pembimbing yang sejak awal penulisan proposal sampai pada penulisan karya ilmiah ini, telah membimbing dengan penuh keikhlasan, dan kesabaran. Di samping itu penghargaan penulis sampaikan kepada para dosen Program Studi Ilmu Komputer, Sekolah Pascasarjana, Institut Pertanian Bogor, yang telah memberikan wawasan dan pengetahuan baru bagi penulis. Atas do’a, pengorbanan, kesabaran, ketulusan, serta dukungan semangatnya, penulis juga menyampaikan ucapan terima kasih dan rasa hormat yang setulus-tulusnya kepada kedua orang tua, serta seluruh keluarga. Semoga karya ilmiah ini bermanfaat.
Bogor, September 2006 Herwanto
5
RIWAYAT HIDUP
Penulis dilahirkan di Jakarta pada tanggal 24 May 1962 dari ayah Paridjan dan ibu Parinah. Penulis merupakan putra kelima dari delapan bersaudara. Pada tahun 1982 penulis lulus dari SMA Negeri 43 Jakarta. Pendidikan sarjana ditempuh pada tahun 1991 di Sekolah Tinggi Manajemen Informatika dan Komputer Gunadarma, jurusan Manajemen Informatika, lulus pada tahun 1996. Kesempatan untuk melanjutkan ke program magister pada Program Studi Ilmu Komputer, Sekolah Pascasarjana IPB diperoleh pada tahun 2004. Penulis bekerja di Rumah Sakit Pusat Pertamina Jakarta pada bagian Sistem Informasi & Telekomunikasi Elektronika sejak tahun 1997. Bidang yang menjadi tanggung jawab penulis ialah pembangunan dan pengembangan sistem informasi rumah sakit. Pada tahun 2005 penulis dipercaya sebagai kepala bagian Sistem Informasi & Telekomunikasi Elektronika.
6
Judul Tesis
Nama NIM
: Pembangunan Sistem Data Mining Untuk Diagnosis Penyakit Diabetes Menggunakan Algoritme Classification Based Association : Herwanto : G651034084
Disetujui Komisi Pembimbing
Imas S Sitanggang, S.Si., M.Kom. Ketua
Rindang Karyadin, S.T., M.Kom. Anggota
Diketahui
Ketua Program Studi Ilmu Komputer
Dr. Sugi Guritman
.
Dekan Sekolah Pascasarjana
Dr. Ir. Khairil A. Notodiputro, MS
Tanggal Ujian: 5 September 2006
7
DAFTAR ISI Halaman DAFTAR GAMBAR
xi
DAFTAR TABEL
xii
DAFTAR LAMPIRAN
xiii
I. PENDAHULUAN 1.1 Latar belakang
1
1.2. Tujuan Penelitian
2
1.3. Ruang lingkup
2
1.4. Manfaat Penelitian
3
II. TINJAUAN PUSTAKA 2.1. Diabetes Melitus
4
2.2 Data Warehouse
5
2.2.1. Metodologi Perancangan Data Warehouse
7
2.2.2. Star Schema
8
2.3. Data Mining
10
2.3.1. Klasifikasi dan Prediksi
13
2.3.2. Metodologi Data Mining
14
2.3.3. Teknik Data Mining
16
2.3.4. Membangun Model Prediksi
26
III. BAHAN DAN METODE 3.1. Bahan
29
3.2. Metode
31
3.2.1. Kerangka Pemikiran
31
3.2.2. Tata Laksana
33
IV. PERANCANGAN ARSITEKTUR SISTEM DATA MINING 4.1 Gambaran umum sistem
35
4.2. Pembangunan Data Warehouse
36
4.3. Pembangunan Model Klasifikasi
38
4.4. Antarmuka Pemakai
40
4.5. Basis Pengetahuan
40
4.4. Modul Diagnosa dan Terapi
41
8
Halaman V. IMPLEMENTASI 5.1. Preproses Data
44
5.2. Pembentukan Sampel Positif dan Sampel Negatif
46
5.3. Pembentukan PN Array
47
5.4. Pembentukan Gain
48
5.5. Program Aplikasi
51
VI. PENGUJIAN DAN PEMBAHASAN 6.1. Mekanisme Pengujian
52
6.2. Pelatihan Dengan Data Training
52
6.3. Proses Optimalisasi
58
VII. KESIMPULAN DAN SARAN 7.1. Kesimpulan
64
7.2. Saran
64
DAFTAR PUSTAKA
65
LAMPIRAN
66
9
DAFTAR GAMBAR Halaman 1. Arsitektur Data Warehouse 2. Relasi antartabel dimensi dan table fakta sederhana
7 10
3. Data mining sebagai salah satu tahapan dalam proses knowledge discovery
11
4. Model proses pembuatan data mining
15
5. Algoritme Appriori
18
6. Algoritme FOIL
22
7. Algoritma PRM
24
8. Metoda startCPAR
25
9. Metoda cparGeneration
25
10. Langkah-langkah membangun model pred iksi
28
11. Kerangka pemikiran pembangunan model untuk diagnosis penyakit diabetes
32
12. Tahapan Proses data mining
33
13. Model aplikasi diabetes
35
14. Relasi antartabel skema bintang data warehouse diabetes
37
15. Ekstraksi dan Transformasi Basis Data SIM RSPP
38
16. Flowchart Algoritme CPAR
39
17 Grafik Gain data training untuk kelas positip diabetes
55
18. Grafik Gain data training untuk kelas negatip diabetes
55
19. Grafik Gain negatif diabetes setelah proses optimalisasi
60
20. Grafik Gain negatif diabetes setelah proses optimalisasi
60
10