1
Klasifikasi Penderita Diabetes Melitus dengan Metode CHAID (Chi-Squared Automatic Interaction Detection) dan CART (Classification and Regression Tree) Ria Dhea Layla N.K (1), Brodjol Sutijo Suprih U. (2), dan Bambang Widjanarko Otok (3) (1) Mahasiswa (2,3) Dosen Jurusan Statistika (1,2,3) Jurusan Statistika, FMIPA, Institut Teknologi Sepuluh Nopember (ITS) Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia e-mail: (1)
[email protected] (2)
[email protected] (3)
[email protected] Abstrak—Penyakit Diabetes secara perlahan dan diam-diam menimbulkan masalah yang dikenal dengan the silent killer. Penyakit Diabetes disebabkan oleh kerusakan pada hormon insulin Tipe penyakit Diabetes ada tiga jenis, yaitu Diabetes tipe I (disebabkan oleh kurangnya produksi insulin), tipe II (disebabkan oleh produksi hormon insulin yang berlebihan), dan Gestasional (hiperglekemia yang terjadi selama kehamilan). Metode CHAID (Chi Squared Automatic Interaction Detection) dan CART (Classification and Regression Tree) merupakan metode yang digunakan dalam pengklasifikasian. CHAID merupakan metode yang digunakan pada skala data nominal atau ordinal (non metrik), CART dapat digunakan pada skala data kontinu maupun rasio. Data yang digunakan pada penelitian ini adalah data skunder dari penderita Diabetes Melitus tipe II dan bukan Tipe II. Variabel respon yaitu penderita Diabetes tipe II dan bukan tipe II, dengan variabel prediktor riwayat keluarga, usia, jenis kelamin, obesitas, pola makan, dan aktivitas fisik (olahraga). Klasifikasi penderita Diabetes Melitus menurut metode CHAID adalah faktor riwayat keluarga, obesitas, dan jenis kelamin, sedangkan pada CART faktor penderita Diabetes Melitus yaitu riwayat keluarga, obesitas, usia, dan jenis kelamin. Kata Kunci—CHAID, CART, Diabetes Melitus
I. PENDAHULUAN ENYAKIT Diabetes Melitus merupakan salah satu penyakit tidak menular (PTM) utama dan jumlah penderitanya mengalami peningkatan. Diabetes Melitus (DM) disebut juga “the silent killer” karena secara perlahan dan diam-diam menimbulkan masalah yang serius dan menyebabkan kematian. Indonesia menempati urutan ke-4 terbesar jumlah penderita penyakit ini dan terus meningkat tajam setiap tahunnya [1]. Hal ini disebabkan minimnya pengetahuan masyarakat mengenai gejala-gejalanya. Jenis diabetes menurut ada tiga jenis Diabetes Melitus yaitu Diabetes tipe I, Diabetes tipe II, dan Diabetes Gastasional [2]. Beberapa metode yang digunakan untuk menggolongkan Diabetes Melitus berdasarkan faktor yang mempengaruhi CHAID (Chi Squared Automatic Interaction Detection Analysis) dan Classification and Regression Trees (CART). Kedua metode ini merupakan metode yang bisa diterapkan untuk data dalam jumlah besar, variabel yang sangat banyak dan melalui prosedur pemilah biner [3]. Pada penelitian ini mengklasifikasikan penderita Diabetes Melitus yang dilakukan degan menerapkan metode CHAID dan CART. Data yang digunakan dalam penelitian data sekunder mengenai DM yang berasal dari RSUD Dr. M.M Dunda Limboto Kabupaten
P
Gorontalo. Mengingat adanya kultur/budaya pernikaan sedarah di provinsi Gorontalo, tingkat pendidikan yang rendah, kondisi ekonomi yang rendah, dan minimnya sarana kesehatan seperti rumah sakit sehingga angka Diabetes Melitus di provinsi tersebut meningkat setiap tahunnya [4]. Berdasarkan latar belakang yang telah dipaparkan penelitian ini membahas mengenai klasifikasi perdasarkan faktor yang mempengaruhi penderita Diabetes Melitus dengan metode CHAID dan CART serta membandingkan hasil dari metode ini. II. TINJAUAN PUSTAKA A. Diabetes Melitus Diabetes melitus atau diabetes adalah penyakit kronis, yang terjadi ketika pankreas tidak menghasilkan insulin yang cukup, atau ketika tubuh tidak dapat secara efektif menggunakan insulin yang dihasilkan. Sehingga menyebabkan peningkatan konsentrasi glukosa dalam darah (hiperglikemia). Beberapa jenis diabetes yang terjadi [2]. 1. Diabetes tipe 1 (sebelumnya dikenal sebagai diabetes insulin-dependent atau anak-onset) ditandai oleh kurangnya produksi insulin. 2. Diabetes tipe 2 (sebelumnya disebut non-insulindependent atau diabetes onset dewasa) disebabkan oleh penggunaan efektif tubuh insulin. Hal ini sering terjadi karena kelebihan berat badan dan kurangnya aktivitas fisik. 3. Gestational diabetes adalah hiperglikemia yang ditemukan pertama kali selama kehamilan. Ruang lingkup diabetes dibagi atas dua faktor, yaitu 1. Faktor risiko yang tidak dapat dimodifikasi (unmodiable risk factors), terdiri dari a. Ras dan Etnik b. Umur Kategori umur dalam ini hal ini adalah semua masyrakat yang berumur 20 tahun ke atas. c. Riwayat keluarga dengan diabetes melitus. d. Riwayat melahirkan bayi dengan berat (BB) lahir > 4.000 gram atau riwayat riwayat pernah menderita diabetes gestasional/kehamilan dengan diabetes melitus. e. Riwayat lahir dengan berat badan lahir rendah (BBLR) (< 2.500 gram) 2. Faktor risiko yang dapat dimodifikasi (modifiable risk factors) a. Berat Badan Lebih
2
Berat badan lebih atau sering disebut dengan obesitas didefinisikan sebagai akumulasi lemak yang berlebih yang memiiki resiko bagi kesehatan. Ukuran seseorang mengalami obesitas adalah indeks masa tubuh (IMT). Berikut klasifikasi berdasarkan IMT.
kategori missing value, yang dapat berkombinasi dengan kategori manapun (3) dimana
Tabel 1. Klasifikasi Indeks Massa Tubuh (IMT) Klasifikasi IMT Kurus
Kekurangan berat badan tingkat berat
< 17,0
Kekurangan berat badan tingkat ringan Kelebihan berat badan tingkat ringan
17,0 – 18,4 18,5 – 25,0 > 25,0 – 27,0
Kelebihan berat badan tingkat ringan
> 27,0
Normal Kegemukan
b. c. d. e.
Kg/m2
Obesitas Abdominal/Sentral (Lingkar perut untuk pria > 90 cm, wanita > 80 cm). Kurangnya Aktivitas Fisik Diet Tak Seimbang, dengan Tinggi Gula dan Rendah Serat Merokok
c.
(4)
dengan derajat bebas yaitu , dimana : nilai observasi baris ke-i dan kolom ke-j : frekuensi harapan baris ke-i dan kolom ke-j untuk menghitung nilai frekuensi harapan masingmasing sel menggunakan rumus sebagai berikut: (5) dimana, ri. : baris ke-i c.j : kolom ke-j n : pengamatan Daerah penolakan jika Statistik chi square digunakan untuk menentukan variabel independen mana yang paling signifikan untuk membagi atau membedakan kategorikategori dalam variabel dependen. b. Bonferroni Correction adalah proses koreksi yang digunakan ketika beberapa uji statistik untuk kebebasan atau ketidakbebasan dilakukan secara bersamaan [8]. Bonferroni Correction dalam CHAID digunakan untuk mengkoreksi split yang terbentuk [9]. (6) dimana, M : penggali Bonferroni : kesalahan tipe I c. Diagram pohon CHAID mengikuti aturan “dari atas ke bawah” (Top – down stopping rule), dimana diagram pohon disusun mulai dari kelompok induk, berlanjut di bawahnya sub kelompok yang berturutturut dari hasil pembagian kelompok induk (1) berdasarkan kriteria tertentu [10]. Bebas: untuk kategori variabel yang memilikiskala C. Classification and Regression Trees (CART) data nominal. Contohnya pekerjaan, etnik, dan area CART merupakan metodologi statistik geografis. nonparametrik yang dikembangkan untuk topik analisis (2) klasifikasi, baik untuk variabel respon kategorik maupun kontinu [11]. CART menghasilkan suatu pohon klasifikasi Floating: Kategori-kategori pada variabel ini akan jika variabel responnya kategorik, dan menghasilkan diperlakukan seperti monotonik kecuali untuk
B. Chi Squared Automatic Interaction Detection Analysis (CHAID) CHAID bagian dari metode terdahulu yang dikenal dengan Automatic Interaction Detector (AID), dan menggunakan statistik chi square sebagai alat utamanya. Pada jurnal [5] mengutip dari Galagher CHAID secara keseluruhan bekerja untuk menduga sebuah variabel tunggal, disebut sebagai variabel dependen, yang didasarkan pada sejumlah variabel-variabel independen. Beberapa definisi CHAID di atas menunjukkan bahwa CHAID adalah sebuah metode untuk mengklasifikasi data kategori dimana tujuan dari prosedurnya adalah untuk membagi rangkaian data menjadi subgrup-subgrup berdasarkan pada variabel dependennya [6]. Analisis CHAID dapat diringkas menjadi 3 kunci, yaitu: a. Uji signifikan chi square, uji ini dilakukan untuk mengidentifikasi variabel independen yang paling signifikan dalam data. b. Koreksi Bonferroni. c. Sebuah algoritma yang digunakan untuk menggabungkan kategori-kategori variabel. 1. Variabel-Variabel dalam Analisis CHAID Mengutip [5] Gallagher menunjukkan bahwa CHAID akan membedakan variabel-variabel independennya menjadi tiga bentuk berbeda, yaitu : a. Monotonik: untuk variabel yang kategorinya mengikuti urutan aslinya (data ordinal). Contohnya usia dan pendapatan. b.
2.
M : penggali Bonferroni c : kategori variabel dependen r : kategori variabel independen Bagian-Bagian Utama dari Analisis CHAID a. Uji Chi – square (Tabel Kontingensi) Tabel kontingensi adalah analisis data untuk melihat hubungan antara beberapa variabel dalam satu tabel. Variabel yang dianalisis merupakan variabel kategorikal, yang memiliki skala nominal atau ordinal. Hipotesis: H0: Tidak terdapat hubungan antar dua variabel H1: Terdapat hubungan antar dua variabel Statistik uji yang digunakan adalah Chi-Square sebagai berikut [7].
3
pohon regresi jika variabel responnya kontinu. Tujuan utama CART adalah mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian. Metode CART merupakan metode yang bisa diterapkan untuk himpunan data yang mempunyai jumlah besar, variabel yang sangat banyak dan dengan skala variabel campuran melalui prosedur pemilahan biner. Langkah-langkah penerapan Algoritma CART adalah sebagai berikut 1. Pembentukan pohon klasifikasi Proses pembentukan pohon klasifikasi terdiri atas 3 tahapan, yaitu a. Pemilihan Pemilah (Classifier) Pemilihan pemilah tergantung pada jenis pohon atau tergantung pada jenis variabel responnya. Mengukur tingkat keheterogenan suatu kelas dari suatu simpul tertentu dalam pohon klasifikasi disebut impurity measure i (t). Ukuran ini akan membantu menemukan fungsi pemilah yang optimal. Fungsi keheterogenan i(t) adalah sebagai berikut i. Indeks Gini :
(7)
ii. Indeks Informasi : (8) iii. Indeks Twoing: (9) iv. Indeks Entropi :
(10)
(13) dengan adalah proporsi kelas j pada simpul t, adalah jumlah pengamatan kelas j pada simpul t dan adalah jumlah pengamatan pada simpul t. Label kelas simpul terminal t adalah yang memberi nilai dugaan kesalahan pengklasifikasian simpul t terbesar. Proses pembentukan pohon klasifikasi berhenti saat terdapat hanya satu pengamatan dalam tiap tiap simpul anak atau adanya batasan minimum n, semua peng-amatan dalam tiap simpul anak identik, dan adanya batasan jumlah level/kedalaman pohon maksimal. 2. Pemangkasan pohon klasifikasi Pemangkasan dilakukan dengan jalan memangkas bagian pohon yang kurang penting sehingga didapatkan pohon optimal. Ukuran pemangkasan yang digunakan untuk memperoleh ukuran pohon yang layak adalah Cost complexity minimum [3]. Sub pohon dari pohon terbesar Tmax (T < Tmax) ukuran cost complexity yaitu (10) dimana R(T)= Resubtitusion Estimate (Proporsi kesalahan pada sub pohon) = kompleksitas parameter (complexity parameter) = ukuran banyaknya simpul terminal pohon T merupakan kombinasi linear biaya dan kompleksitas pohon yang dibentuk dengan menambahkan cost penalty bagi kompleksitas terhadap biaya kesalahan klasifikasi pohon. Cost complexity prunning menentukan suatu pohon bagian T(α) yang meminimumkan pada seluruh pohon bagian. Atau untuk setiap nilai α, dicari pohon bagian T() < Tmax yang meminimumkan yaitu (11) Jika R(T) digunakan sebagai kriteria penentuan pohon optimal maka akan cenderung pohon terbesar adalah T1, sebab semakin besar pohon, maka semakin kecil nilai R(T) nya. 3. Penentuan Pohon Klasifikasi Optimal Pohon klasifikasi yang berukuran besar memberikan nilai penduga pengganti paling kecil, sehingga pohon ini cenderung dipilih untuk menduga nilai respon. Ukuran pohon yang besar akan menyebabkan nilai kompleksitas yang tinggi karena struktur data yang digambarkan cenderung kompleks, sehingga perlu dipilih pohon optimal yang berukuran sederhana tetapi memberikan nilai penduga pengganti cukup kecil.
p(j|t) adalah peluang j pada simpul t. Goodness of Split didefinisikan sebagai penurunan keheterogenan. (11) Pemilah yang menghasilkan nilai i( s, t ) lebih tinggi merupakan pemilah yang lebih baik dan , merupakan partisi dari simpul t menjadi dua himpunan bagian saling lepas dimana dan adalah proporsi masing-masing peluang simpul. Karena maka nilai merepresentasikan perubahan dari keheterogenan dalam simpul t yang semata-mata disebabkan oleh pemilah s. Jika simpul yang diperoleh merupakan kelas yang tidak homogen, prosedur yang sama diulangi sampai pohon klasifikasi menjadi suatu konfigurasi tertentu, dan memenuhi (12) b. Penentuan Simpul Terminal Suatu simpul t akan menjadi simpul terminal atau tidak, akan dipilah kembali bila pada simpul t tidak III. METODOLOGI PENELITIAN terdapat penurunan keheterogenan dengan adanya A. Sumber Data batasan minimum n seperti hanya terdapat satu Data yang digunakan dalam penelitian ini merupakan data pengamatan pada tiap simpul anak. skunder yang berasal dari data pasien rawat inap penderita DM c. Penandaan Label Kelas di RSUD Kabupaten Gorontalo tahun 2011. Penandaan label kelas pada simpul terminal dilakukan berdasarkan aturan jumlah terbanyak, yaitu
4
B. Identifikasi Variabel Tabel 2. Variabel Penelitian No
Variabel
1
Status (Y)
2
Riwayat Keluarga (X1)
3 4
Umur (X2) Jenis kelamin (X3)
Skala Nominal Nominal
Keterangan 0: Bukan penderita DM tipe II 1: Penderita DM tipe II 0: Tidak memiliki keturunan diabetes 1: Memiliki keturunan diabetes
Ratio Nominal
5
Obesitas (X4)
Nominal
6
Pola makan (X5)
Nominal
7
Olah raga (X6)
Nominal
0: jenis kelamin laki-laki 1: perempuan 0: tidak menderita obesitas 1: menderita obesitas 0: pola diet untuk mencegah diabetes 1: tidak memenuhi kriteria sehat Olahraga teratur 3-4 kali/minggu, setidaknya 20 sampai 30 menit (misalnya jalan kaki, senam) [5]. 0: aktif berolahraga 1: kurang aktif berolahraga
C. Metode Analisis Data 1. Analisis CHAID menggunakan langkah-langkah sebagai berikut. a. Uji signifikan chi square pada tiap varabel independen b. Koreksi Bonfferoni c. Pohon klasifikasi CHAID 2. Analisis CART menggunakan langkah-langkah sebagai berikut a. Kombinasi yang digunakan data learning dan data testing, yaitu (95% : 5%), (90% : 10%), (85% : 15%), (80% : 20%), dan (75% : 25%). b. Pembentukan (growing) pohon klasifikasi maksimal, c. Pemangkasan pohon klasifikasi yang paling kecil dengan kriteria kompleksitas kesalahan (cost complexity) yang minimum d. Memilih pohon terbaik IV.
HASIL penelitian
PEMBAHASAN
B. Analisis CHAID (Chisquare Squared Automatic Interaction Detection) Penentuan Parent Node I Variabel independen yang paling signifikan memiliki nilai statistik chi-squared yang paling besar. Tabel 3 Nilai Chi-squared Variabel yang Signifikan Parent Node I Variabel P value Keputusan Nilai Riwayat 242,921 0,000 Tolak H0 Usia 1,936 0,380 Gagal Tolak H0 Jenis Kelamin 3,732 0,053 Tolak H0 Obesitas 98,381 0,000 Tolak H0 Pola Makan 53,561 0,000 Tolak H0 Aktifitas Fisik 64,128 0,000 Tolak H0
Variabel Riwayat variabel yang memiliki nilai terbesar yaitu 242,921, oleh sebab itu variabel tersebut merupakan parent node I. Penentuan Parent Node II Penentuan Node 2 pada Kategori Tidak Memiliki Keturunan DM (0) Tabel 4. Nilai Chi squred Variabel Independen yang Signifikan (II) Variabel P value Keputusan Nilai Usia 1,059 0,589 Gagal Tolak H0 Jenis Kelamin 0,456 0,499 Gagal Tolak H0 Obesitas 17,502 0,000 Tolak H0 Pola Makan 14,107 0,000 Tolak H0 Aktifitas Fisik 15,587 0,000 Tolak H0
Variabel obesitas memiliki nilai terbesar dibandingkan dengan variabel lain. Oleh karena itu variabel obesitas dapat menjadi parent node II. Penentuan Parent Node III a. Penentuan Node 3 pada Kategori Tidak Menderita Obesitas (1) Tabel 5. Penentuan Node 3 pada Kategori Menderita Obesitas (1) Nilai Variabel P value Keputusan Usia 2,866 0,239 Gagal Tolak H0 Jenis Kelamin 1,421 0,233 Gagal Tolak H0 Pola Makan 0,13 0,908 Gagal Tolak H0 Aktifitas Fisik 0,13 0,908 Gagal Tolak H0
Variabel usia jenis kelamin, pola makan, dan aktifitas fisik yang dilakukan beserta analisisnya sudah homogen dan tidak perlu dilakukan pemilahan. b. Penentuan Node 4 pada Kategori Menderita Obesitas (0)
adalah sebagai berikut. A. Statistika Deskriptif Tabel 6 Penentuan Node 4 pada Kategori Menderita Obesitas (0) Menurut status penderita Diabetes Melitus. Penderita Nilai Variabel P value Keputusan pasien tipe II merupakan penderita paling banyak yaitu Usia 1,975 0,372 Gagal Tolak H0 516 orang. Penderita yang memiliki riwayat keluarga Jenis Kelamin 12,000 0,001 Tolak H0 menderita DM, yaitu 468 penderita. Usia yang paling Pola Makan 0,121 0,728 Gagal Tolak H0 banyak menderita Diabetes Melitus yaitu usia 43 sampai 64 tahun yaitu 368 pasien. Penderita Diabetes Melitus Variabel jenis kelamin simpul induk ke-3. Variabel yang paling banyak adalah kelamin perempuan, yaitu 307 aktifitas fisik tidak memiliki anggota pada pada status penderita. Penderita Diabetes Melitus paling banyak penderita dengan variabel obesitas (kategori tidak menderita menderita obesitas atau kelebihan berat badan yaitu 487 obesitas). orang. Penderita dengan pola diet lebih banyak menderita Diabetes Melitus tipe II yaitu 440 penderita. Aktif fisik yaitu berolahraga lebih banyak menderita DM yaitu 456 pasien.
5
c.
Penentuan Node 5 pada Kategori Jenis Kelamin (1) Tabel 7. Penentuan Node 5 pada Kategori Jenis Kelamin (1) Nilai P value Keputusan 1,067 0,587 Gagal Tolak H0 1,059 0,303 Gagal Tolak H0
Variabel Usia Jenis Kelamin
Tabel 9. Ketepatan Klasifikasi Analisis CHAID Prediksi Persen Observasi Terkoreksi (%) Selain DM II DM II Selain DM II DM II Total Terkoreksi
18 0
26 516
40,9 100 96,8
Variabel usia dan jenis kelamin sudah homogen sehingga Tabel 9 menunjukkan bahwa ketepatan klasifikasi pada tidak dapat dipilah lagi. Oleh sebab itu dilakukan proses CHAID sebesar 96,8%, artinya model pohon yang telah pengehentian. terbentuk memiliki keakuratan hasil prediksi sebesar 96,8%. d. Penentuan Node 6 pada Kategori Jenis Kelamin (0) Hasil penentuan dari node 6 pada kategori tidak memiliki C. Analisis CART (Classification and Regression Trees) riwayat keluarga menderita Diabetes Melitus, tidak menderita Data learning digunakan untuk permodelan obesitas, dan jenis kelamin laki-laki terhadap status penderita sedangkan data testing digunakan untuk validasi model. yaitu variabel independen jenis kelamin kategori 0 tidak Tabel 10. Perbandingan Ketepatan Klasifikasi Antar Kombinasi Data memiliki anggota pada variabel status penderita kategori DM Kombinasi Ketepatan II. Sehingga sudah tidak dapat dilakukan pemilihan lagi atau Data (%) Klasifikasi (%) No proses berhenti. Learning Testing Learning Testing Diagram Pohon CHAID 1 95 5 91,50 89,3 Riwayat keluarga pasien merupakan variabel independen 2 90 10 91,30 92,90 yang paling signifikan, dimana variabel tersebut merupakan 3 85 15 91,80 89,30 4 80 20 91,30 92,00 parent node I. Variabel Obesitas merupakan parent node II dan 5 75 25 91,90 90,00 variabel jenis kelamin merupakan parent node III. Tahap pemisahan, variabel yang mempunyai asosiasi paling kuat Kombinasi data learning dan testing tertinggi dicapai adalah Riwayat Keluarga, Obesitas, dan Jenis Kelamin data learning 90% dan testing 10%. Sehingga kombinasi data learning dan testing inilah yang digunakan pada analisis selanjutnya Pohon Klasifikasi Maksimal Pohon klasifikasi maksimal adalah pohon klasifikasi dengan jumlah simpul terminal terbanyak. Metode pemilih pada penelitian ini menggunakan Indeks Gini. Pemilah pertama terjadi pada variabel Riwayat.
Gambar 2. Pohon Klasifikasi Maksimal CART
Gambar 1. Pohon Klasifikasi CHAID
Koreksi Bonferroni Tabel 8. Nilai Koreksi Bonferroni Variabel Bonferroni Correction Riwayat 0,1 Obesitas 0,1 Jenis Kelamin 0,1
Tabel 8 menunjukkan variabel riwayat, obesitas, dan jenis kelamin memiliki nilai bonferroni correction yang sama yaitu 0,1. Sehingga split dalam analisis CHAID telah sesuai.
Variabel prediktor yang masuk dalam klasifikasi pohon maksimal yang terbentuk adalah varabel Riwayat, Usia, Jenis Kelamin, dan Obesitas. Variabel Riwayat merupakan pemilah yang memiliki peranan utama dalam pembentukan pohon maksimal dan merupakan variabel yang sangat dominan dalam pengelompokan. Tabel 11. Skor Variabel Prediktor dalam Pohon Klaifikasi Maksimal Variabel Skor Riwayat 100% Aktivitas Fisik 36.595% Pola Makan 36.595% Obesitas 36.595% Umur 9.316% Jenis Kelamin 3.096%
6 Tabel 13. Ketepatan Klasifikasi Data Testing
Pemangkasan Pohon Klasifikasi Maksimal (Pruning) Pemangkasan dilakukan berdasarkan aturan cost complexty minimum dan menggunakan penduga sampel uji (test sample estimate).
Kelas Aktual
Prediksi Kelas 0 1
Ketepatan Klasifikasi (%)
0 4 0 1 4 48 Ketepatan Klasifikasi Keseluruhan
100 92,3 92,9
Tabel 13 menunjukkan bahwa sebanyak ketepatan klasifikasi pohon memiliki ketepatan klasifikasi sebesar 92,9%, artinya model pohon yang telah terbentuk memiliki keakuratan hasil prediksi sebesar 92,9%. Gambar 3. Pemangkasan Pohon Maksimal (Prunning)
Pohon klasifikasi maksimal menghasilkan penduga pengganti (resubstitution relative cost) yang kecil yaitu sebesar 0,056 dengan biaya kesalahan sebesar (relative cost) 0,077 0,037 atau antara 0,114-0,04. Nilai relative cost pada pohon maksimal (warna merah) memiliki nilai yang sama dengan nilai relative cost pada pohon optimal (warna hijau). Sehingga sudah tidak perlu dilakukan pemangkasan. Pohon Klasifikasi Pohon klasifikasi optimal diperoleh melalui langkah pemangkasan yang telah dilakukan sebelumnya. Karena nilai relative cost pada pohon maksimal memiliki nilai yang sama dengan nilai relative cost pada pohon optimal maka tidak perlu pemangkasan. Sehingga klasifikasi pohon maksimal yang digunakan dalam pengklasifikasian. Simpul terminal yang terbentuk adalah 9 simpul terminal, sebanyak 5 simpul terminal diprediksi sebagai kategori bukan penderita DM II dan 4 simpul terminal diprediksi sebagai kategori penderita DM tipe II Tabel 12. Ketepatan Klasifikasi Data Learning Prediksi Kelas Ketepatan Klasifikasi Kelas Aktual (%) 0 1 0
40
0
1 26 438 Ketepatan Klasifikasi Keseluruhan
40 464 94,8%
Pohon klasifikasi yang terbentuk mampu memprediksi dengan tepat pengamatan sebesar 94,8%. Penderita bukan DM tipe II yang salah diklasifikasikan ke dalam kelompok penderita DM II yaitu 0 pengamatan, atau tidak ada penderita bukan DM tipe II yang salah diklasifikasikan ke dalam kelompok penderita DM tipe II. Sedangkan, 26 penderita DM tipe II yang salah diklasifikasikan ke dalam kelompok penderita bukan DM tipe II. Validasi Pohon Klasifikasi Ketepatan pohon klasifikasi sebesar 94,8%, Validasi dilakukan dengan memasukkan data testing sebanyak 56 data ke dalam model pohon klasifikasi yang terbentuk sebelumnya dari data learning. Data testing yang digunakan adalah 10%
V. KESIMPULAN DAN SARAN Faktor yang mempengaruhi penderita Diabetes Melitus dengan pendekatan metode CHAID yaitu variabel riwayat keluarga, obesitas, dan jenis kelamin. Faktor yang mempengaruhi penderita Diabetes Melitus dengan menggunakan CART yaitu riwayat keluarga, obesitas usia, dan jenis kelamin. Pada penelitian selanjutnya sebaiknya melakukan konsultasi dengan dokter ahli untuk melakukan riset ulang melalui survei terbuka kepada pasien yang menderita Diabetes Melitus. Guna memperoleh variabel-variabel prediktor baru sebagai faktor resiko Diabetes Melitus. DAFTAR PUSTAKA [1]
Dinas Kesehatan. (2008). [Online]. Avaible: (http://www.depkes. go.id /downloads/ BULETIN%20PTM.pdf, diakses tanggal 8 Maret 2013) [2] WHO (World Health Organitation). 2012. [Online]. Avaible: (http://www.who.int/ ,diakses tanggal 9 Oktober 2012) [3] Lewis, M.D dan Roger, J. (2000). An Introduction to Classification and Regression Tree (CART) Analysis. Presented at the 2000 Anual Meeting of Society For Academy Emergency Medicine in San Fransisco, California [Online]. Avaible: (http://www.google.co.id/url?sa=t&rct=j&q=&esrc=s&source=web&c d=1&cad=rja&ved=0CC8QFjAA&url=hkdiakses tanggal 4 Maret 2013) [4] Kompas. (2001). [Online] Avaible: (http://kesehatan.kompasiana.com/seksologi/2011/08/08/rendahnyatingkat-pendidikan-dan-pengetahuan-seks-mempengaruhimeningkatnya-kasus-inses-384853.html,diakses tanggal 27 Mei 2013) [5] Khunto, Yohanes S. dan Hasana, Siti N. (2006). Analisis Chaid Sebagai Alat Bantu Statistika Untuk Segmentasi Pasar (Studi Kasus Pada Koperasi Syari’ah Al-Hidayah). [Online]. Avaible: (http://fportfolio.petra.ac.id/user_files/05-011/MAR06010205.pdf, diakses tanggal 20 Maret 2013) [6] Lehmann, T. dan Eherler, D. (2001). Responder Profiling with CHAID and Dependency Analysis. California. [Online]. Avaible: (www.informatik.uni-freiburg.de/~ml/ ecmlpkdd/WSProceedings/w10/lehmann.pdf., diakses tanggal 21 Maret 2013) [7] Agresti, A.(2007). An Introduction to Categorical Data Analysis second edition. New Jersey : Jon Wiley & Sons, Inc [8] Sharp, A., J. Romaniuk dan S. Cierpicki. (2002). The Performance Of Segmentation Variables: A Comparative Study. [Online] Avaible: (http://130.195.95.71:8081/www/ANZMAC1998/Cd_rom/Sharp222.p df., diakses tanggal 21Maret 2013 [9] Bagozzi, R.P. (1994). Advanced Methods of Marketing Research. Blackwell Publishers Ltd., Oxford. [10] Myers, J.H. 1996. Segmentation and Positioning for Strategic Marketing Decisions. American Marketing Association. Chicago. [11] Breiman L., Friedman J.H Olshen R.A & Stone C.J. (1993). Classification And Regression Tree. New York, NY: Chapman And Hall