perpustakaan.uns.ac.id
digilib.uns.ac.id
APLIKASI ALGORITMA CART UNTUK MENGKLASIFIKASIKAN DATA NASABAH ASURANSI JIWA BERSAMA BUMIPUTERA 1912 SURAKARTA
oleh LAILA KURNIA DAMAYANTI M0106014
SKRIPSI ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar Sarjana Sains Matematika
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA 2011 commit to user i
perpustakaan.uns.ac.id
digilib.uns.ac.id
SKRIPSI APLIKASI ALGORITMA CART UNTUK MENGKLASIFIKASIKAN DATA NASABAH ASURANSI JIWA BERSAMA BUMIPUTERA 1912 SURAKARTA yang disiapkan dan disusun oleh LAILA KURNIA DAMAYANTI M0106014 dibimbing oleh Pembimbing I,
Pembimbing II,
Irwan Susanto, DEA
Drs. Pangadi, M.Si.
NIP. 19710511 199512 1 001
NIP. 19571012 199103 1 001
telah dipertahankan di depan Dewan Penguji pada hari Jumat tanggal 29 April 2011 dan dinyatakan telah memenuhi syarat Anggota Tim Penguji
Tanda Tangan
1. Winita Sulandari, M.Si
1.
…………………
2.
…………………
NIP. 19780814 200501 2 002
2. Dr. Sutanto, DEA NIP. 19710302 199603 1 001
Surakarta, Mei 2011 Disahkan oleh Fakultas Matematika dan Ilmu Pengetahuan Alam Dekan
Ketua Jurusan Matematika
commit to user ii Prof. Drs. Sutarno, M.Sc, Ph.D
Drs. Sutrima, M.Si
perpustakaan.uns.ac.id
digilib.uns.ac.id
ABSTRAK
Laila Kurnia Damayanti, 2011. APLIKASI ALGORITMA CART UNTUK MENGKLASIFIKASIKAN DATA NASABAH ASURANSI JIWA BERSAMA BUMIPUTERA 1912 SURAKARTA. Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Sebelas Maret.
Masalah klasifikasi sering dijumpai dalam kehidupan sehari-hari, baik mengenai data sosial, industri, kesehatan, perusahaan maupun perbankan. Masalah tersebut dapat diselesaikan dengan metode klasifikasi. Algoritma CART (Classification and Regression Trees) merupakan metode statistik nonparametrik yang berguna untuk memperoleh kelompok data yang akurat dalam analisis klasifikasi. Data nasabah Asuransi Jiwa Bersama Bumiputera mempunyai banyak atribut yang bertipe kategorik (nominal maupun ordinal) yang tidak mudah untuk ditangani. Algoritma CART merupakan salah satu metode yang cocok untuk mengatasi masalah tersebut dengan kelebihan-kelebihan yang dimilikinya. Algoritma CART diaplikasikan untuk mengklasifikasikan nasabah AJB Bumiputera 1912 Surakarta. Selanjutnya pola status pembayaran nasabah dapat dicari untuk menentukan calon nasabah yang akan datang. Proses pembentukan pohon klasifikasi terbagi menjadi 4 tahapan yaitu pembentukan pohon, pelabelan kelas, proses pemangkasan pohon klasifikasi dan pemilihan pohon klasifikasi optimal. Data nasabah dibagi menjadi dua kelompok data yaitu data learning dan data testing. Dalam skripsi ini dilakukan tiga kombinasi proporsi data learning dan data testing yaitu: (1) pembagian data learning dan data testing dengan proporsi data learning > data testing (70%: 30%), (2) pembagian data learning dan data testing dengan proporsi data learning = data testing (50% : 50%), (3) pembagian data learning dan data testing dengan proporsi data learning < data testing (40% : 60%).
Hasil penelitian menunjukkan bahwa untuk membuat model yang akan digunakan untuk mengklasifikasikan data baru maka pohon klasifikasi optimal yang digunakan adalah pohon pada kondisi pertama dengan proporsi data learning dan data testing sebesar 70%:30%, dimana nilai ketepatan data testingnya tertinggi yaitu sebesar 83.65 %. Dengan Algoritma CART dapat dikatakan bahwa status pembayaran nasabah dikategorikan tidak lancar jika cara bayar dilakukan secara bulanan. Sedangkan status pembayaran dikategorikan lancar jika cara bayar dilakukan secara setengah tahunan atau tahunan. Kata kunci : Pohon klasifikasi, CART, nasabah asuransi jiwa Bumiputera
commit to user iii
perpustakaan.uns.ac.id
digilib.uns.ac.id
ABSTRACT
Laila Kurnia Damayanti, 2011. THE APPLICATION OF CART ALGORITHM TO CLASSIFY DATA OF CUSTOMERS MUTUAL LIFE INSURANCE BUMIPUTERA 1912 IN SURAKARTA. Faculty of Mathematics and Natural Sciences, Sebelas Maret University. . In everyday life, the problem of classification is very frequently found, both in social data, industrial, healthcare, corporate and banking. These problems can be solved by the method of classification. Algorithm CART (Classification and Regression Trees) is a nonparametric statistical method that is useful to obtain accurate sets of data in the classification analysis. The data of customers Mutual Life Insurance Bumiputera had many attributes that type of categorical (nominal or ordinal) is not easy to handle. CART algorithm is a suitable method to resolve the issue with the advantages it is had. The CART algorithm is applies to classify customers Mutual Life Insurance Bumiputera 1912 in Surakarta. Further to note patterns generated customer payment status to determine which prospective customers will come. The tree classification building divided into four step i.e. the splitting nodes and class assignment, stop the split, the tree pruning classification and the optimal selection tree classification. In this paper is applies three combinations of proportions of learning data and testing data are: (1) the distribution of learning data and testing data with the proportion of learning data higher than data testing (70%: 30%), (2) the distribution of learning data and testing data with the proportion of data learning is equal testing data (50%: 50%), (3) data sharing learning and testing data with the proportion of learning data lower than data testing (40%: 60%). The results shows that in order to create a model that will be used to classify new data, the optimal classification tree is a tree that is used in the first condition that the proportion of learning data and testing data is equal 70%:30%, where the highest value testing data accuracy that is equal to 83.65%. With CART algorithm can describe that under the monthly payment basis customer payment status is classified as stagnating. While categorized as no constrain payment status if payment is done half-way annual or annual.
Keywords: classification tree, CART, insurance customers of Bumiputera
commit to user iv
perpustakaan.uns.ac.id
digilib.uns.ac.id
MOTTO
“Sesungguhnya sesudah kesulitan itu ada kemudahan, maka apabila kamu telah selesai (dari suatu urusan), kerjakanlah dengan sungguh-sungguh (urusan) yang lain” (QS. Alam Nasyirah: 6-7)
commit to user v
perpustakaan.uns.ac.id
digilib.uns.ac.id
PERSEMBAHAN
Karya ini penulis kupersembahkan untuk :
Orang tuaku tercinta
Kakak dan adikku tersayang
My special person
Teman-temanku dan sahabat-sahabatku tercinta
Almamaterku
commit to user vi
perpustakaan.uns.ac.id
digilib.uns.ac.id
KATA PENGANTAR
Alhamdulillahi Rabbil’alamin. Puji syukur penulis panjatkan kehadirat Allah SWT yang telah memberikan nikmat, rahmat, dan hidayahNya sehingga penulis dapat menyelesaikan skripsi ini. Penulis juga tidak lupa mengucapkan terima kasih kepada beberapa pihak yang telah banyak memberikan masukan untuk perbaikan penulisan skripsi ini, khususnya kepada 1. Bapak Irwan Susanto, DEA dan Drs. Pangadi, M.Si. selaku Pembimbing I dan Pembimbing II yang telah memberikan bimbingan, nasehat, kritik dan saran selama penyusunan skripsi ini. 2. Bapak Drs. Sutrima, M.Si yang telah memberikan semangat, bimbingan, nasehat, kritik dan saran dalam penyusunan skripsi ini. 3. Bapak, Ibu, Kakak, serta Adikku atas doa, kasih sayang, perhatian dan segalanya yang telah menjadikan penulis selalu semangat dan termotivasi untuk melakukan yang terbaik. 4. Sahabat-sahabat tercinta Hayu, Tya, Linda, Dewanti serta Mas Cica terima kasih atas dukungan, support serta bimbingan yang telah diberikan dalam menyelesaikan skripsi ini. Selanjutnya, semoga skripsi ini dapat bermanfaat bagi pihak yang membutuhkan.
Surakarta, April 2011
Penulis
commit to user vii
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR ISI
JUDUL ………………………………………………………………………….
i
PENGESAHAN ………………………………………………………………...
ii
ABSTRAK ……………………………………………………………………... I iii ABSTRACT ……………………………………………………......................... iv MOTTO ………………………………………………………………………...
v
PERSEMBAHAN ………………………………………………………………
vi
KATA PENGANTAR ………………………………………………………….
vii
DAFTAR ISI …………………………………………………………………… viii DAFTAR TABEL …………………………………………………………........ x DAFTAR GAMBAR …………………………………………………………...
xi
DAFTAR NOTASI ……………………………………………………………..
xii
BAB I
BAB II
PENDAHULUAN ………………………………………………….
1
1.1. Latar Belakang Masalah ……………………………………….
1
1.2. Perumusan Masalah ……………………………………………
2
1.3. Batasan Masalah ……………………………………………….
3
1.4. Tujuan Penelitian……………………………………………….
3
1.5. Manfaat Penelitian……………………………………………...
3
LANDASAN TEORI ………………………………………………
4
2.1. Tinjauan Pustaka ………………………………………………. 4 2.1.1. Teori Probabilitas….………………………………………
4
2.1.2. Analisi Klasifikasi…………………………………………
7
2.1.3. Masalah Umum Klasifikasi...……………………………...
8
2.1.4. Algoritma CART………….……………………………….
11
2.1.5. Struktur atau Bentuk Pohon Klasifikasi…………...………
12
2.1.6. Binary Recursive Partitioning….….…………………….... 14 2.1.7. Langkah-langkah Kerja CART..………………………….. commit to user viii
16
perpustakaan.uns.ac.id
BAB III
digilib.uns.ac.id
2.1.7.1 Proses Pemecahan Node…………………………..
16
2.1.7.2 Pelabelan Kelas (Class Assignment)………………
19
2.1.7.3 Proses Penghentian Pemecahan…………………...
20
2.1.7.4 Proses pemangkasan Pohon……………………….
21
2.1.7.5 Pohon Klasifikasi Optimal………………………...
24
2.1.8. Predictive Accuracy……………………………………….
27
2.1.9. Interpretasi Pohon Klasifikasi…..…………………………
30
2.2. Kerangka Pemikiran …………………………………………...
32
METODE PENELITIAN …………………………………………..
33
3.1. Sumber Data……………………………………………………
33
3.2. Metode Analisis Data ………………………………………….. 34 BAB IV
PEMBAHASAN …………………………………………………… 36 4.1 Deskripsi Data…………………………………………………... 36 4.2 Hasil Analisis CART………………………...…………………
37
4.2.1 Pembentukan Pohon Klasifikasi Kondisi Pertama………... 37 4.2.2 Pembentukan Pohon Klasifikasi Kondisi Kedua………….
46
4.2.3 Pembentukan Pohon Klasifikasi Kondisi Ketiga………….
55
4.2.4 Pemilihan Kondisi yang Tepat…………………………….
64
4.2.5 Interpretasi Pohon Klasifikasi Terbaik………...………….
65
PENUTUP …………………………………………………………
68
5.1. Kesimpulan …………………………………………………….
68
5.2. Saran …………………………………………………………...
68
DAFTAR PUSTAKA …………………………………………………………..
69
BAB V
LAMPIRAN ……………………………………………………………………. 70
commit to user ix
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR TABEL
Tabel 4.1. Variabel Independen dan Variabel Dependen ……………………...
36
Tabel 4.2. Kriteria Pemilah Terbaik Root Node Kondisi Pertama …………….
38
Tabel 4.3. Tree Sequence Kondisi Pertama ……………………………………
44
Tabel 4.4. Tingkat Akurasi Pohon Optimal Dengan Data Learning Kondisi Pertama …………………………………………………….
45
Tabel 4.5. Tingkat Akurasi Pohon Optimal Dengan Data Testing Kondisi Pertama …………………………………………………….
46
Tabel 4.6. Kriteria Pemilah Terbaik Root Node Kondisi Kedua ………………
47
Tabel 4.7. Tree Sequence Kondisi Kedua ……………………………………...
53
Tabel 4.8. Tingkat Akurasi Pohon Optimal Dengan Data Learning Kondisi Kedua ……………………………………………………… 54 Tabel 4.9. Tingkat Akurasi Pohon Optimal Dengan Data Testing Kondisi Kedua ……………………………………………………… 55 Tabel 4.10. Kriteria Pemilah Terbaik Root Node Kondisi Ketiga………………
56
Tabel 4.11. Tree Sequence Kondisi Ketiga........................................................... 62 Tabel 4.12. Tingkat Akurasi Pohon Optimal Dengan Data Learning Kondisi Ketiga.................................................................................... 63 Tabel 4.13. Tingkat Akurasi Pohon Optimal Dengan Data Testing Kondisi Ketiga.................................................................................... 64 Tabel 4.14. Nilai Ketepatan dari Ketiga Kondisi ………………………………. 64
commit to user x
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR GAMBAR
Gambar 2.1. Pohon Klasifikasi CART …………………...…………………….
13
Gambar 2.2. Proses Partisi ………………………………………….………….
15
Gambar 2.3. Pohon Klasifikasi T ……………………………………………… 22 Gambar 2.4. Branch Tt2 .........………………………………………………….. 22 Gambar 2.5. Pohon Klasifikasi T-Tt2 (Pruned Subtree)………………………... 22 Gambar 2.6. Contoh Pohon Klasifikasi (CART) .............................…………...
31
Gambar 4.1. Pemilahan Root Node Kondisi Pertama ………………………….
39
Gambar 4.2. Terminal Node 46 dan 47 Kondisi Pertama ……………………...
40
Gambar 4.3. Pohon Klasifikasi Maksimal Kondisi Pertama …………………..
40
Gambar 4.4. Pohon Klasifikasi Kondisi Pertama yang Akan Dipangkas ……...
41
Gambar 4.5. Node 36 Pada Kondisi Pertama yang Akan Dipangkas..................
41
Gambar 4.6. Pemilahan Root Node Kondisi Kedua............................................
48
Gambar 4.7. Terminal Node 23 dan 24 Kondisi Kedua......................................
49
Gambar 4.8. Pohon Klasifikasi Maksimal Kondisi Kedua..................................
49
Gambar 4.9. Pohon Klasifikasi Kondisi Kedua yang Akan Dipangkas………... 50 Gambar 4.10. Node 8 Pada Kondisi Kedua yang Akan Dipangkas……………..
50
Gambar 4.11. Pemilahan Root Node Kondisi Ketiga…………………………… 57 Gambar 4.12. Terminal Node 10 dan 11 Kondisi Ketiga……………………….. 58 Gambar 4.13. Pohon Klasifikasi Maksimal Kondisi Ketiga.................................
58
Gambar 4.14. Pohon Klasifikasi Kondisi Ketiga yang Akan Dipangkas……….
59
Gambar 4.15. Node 9 Pada Kondisi Ketiga Yang Akan Dipangkas …………… 60
commit to user xi
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR NOTASI
x
: Variabel independen
y
: Variabel dependen
𝜋𝑗
: Probabilitas prior untuk kelas ke-j
R*(T)
: Probabilitas terjadinya kesalahan untuk seluruh terminal node t
R(T)
: Estimator R*(T)
𝜙
: Fungsi impurity
i(t)
: Ukuran impurity untuk node t
∆𝑖 𝑠, 𝑡
: Fungsi penurunan keragaman pada node t dengan kriteria pemecah s
𝐼 𝑡
: Impurity node t
𝐼 𝑇
: Impurity tree (Pohon Klasifikasi T)
𝑇𝑚𝑎𝑥
: Pohon klasifikasi maksimal
𝛼
: Node complexity
𝑇
: Banyak terminal node
Rα (T)
: Ukuran ongkos kompleksitas untuk pohon klasifikasi T
𝑅 𝑡𝑠 T
: Penduga sampel uji untuk Pohon klasifikasi T
𝑅 𝑐𝑣 𝑇
: Penduga validasi silang lipat V untuk pohon klasifikasi T
R*(d)
: Proporsi misclassification yang sebenarnya
R(d)
: Estimator R*(d)
Rts(d)
: Proporsi misclassification dengan metode Test Sample Estimate
cv
R (d)
: Proporsi misclassification dengan metode V-Fold Cross Validation
commit to user xii
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB I PENDAHULUAN
1.1 Latar Belakang Masalah Masalah klasifikasi sering dijumpai pada kehidupan sehari-hari, baik mengenai data sosial, data industri, data kesehatan, data perusahaan maupun data perbankan. Masalah tersebut dapat diselesaikan dengan metode klasifikasi. Menurut Webb dan Yohannes [8] metode klasifikasi dapat dilakukan dengan pendekatan parametrik dan nonparametrik. Dalam pendekatan parametrik terdapat beberapa metode klasifikasi yang sering digunakan antara lain : Analisis Regresi Logistik, Analisis Diskriminan dan Analisis Regresi Probit. Analisis Regresi Logistik dan Analisis Regresi Probit memiliki kelemahan, yaitu nilai yang dihasilkan model Regresi Logistik dan Regresi Probit berupa nilai probabilitas yang dirasa kurang praktis. Pada Analisis Diskriminan, data diharuskan memenuhi beberapa asumsi yaitu data harus berdistribusi normal dan matriks kovarian yang sama untuk setiap populasi, Breiman et.al. [1]. Dengan adanya keterbatasan metode klasifikasi parametrik, maka digunakan pendekatan nonparametrik. Metode nonparametrik tidak bergantung pada asumsi tertentu sehingga memberikan fleksibilitas yang lebih besar dalam menganalisa data tetapi tetap mempunyai tingkat akurasi yang tinggi dan mudah dalam penggunaannya. Ada beberapa metode klasifikasi dengan pendekatan nonparametrik yang sering digunakan, salah satunya adalah metode klasifikasi berstruktur pohon yang diperkenalkan oleh Leo Breiman, et.al. [1] yaitu Classification and Regression Trees (CART). Algoritma CART memiliki banyak keunggulan dibandingkan dengan metode lain seperti, variabel-variabel dalam CART baik variabel dependen maupun independen tidak menggunakan asumsi distribusi tertentu, variabel independennya dapat bertipe kategorik (nominal atau ordinal) maupun kontinu, tidak berlaku adanya transformasi data dan interpretasinya mudah dipahami. commit to user 1
perpustakaan.uns.ac.id
digilib.uns.ac.id 2
Masalah klasifikasi juga di alami dalam bidang asuransi, khususnya AJB Bumiputera 1912 Surakarta. Asuransi Jiwa Bersama Bumiputera 1912 telah mengumpulkan data nasabah sekian tahun lamanya sehingga mencapai data dalam jumlah yang besar. Data tersebut mempunyai banyak atribut bertipe kategorik (nominal atau ordinal). Untuk menganalisisnya diperlukan pengetahuan yang tidak mudah, dimana bisa menangani masalah data yang terjadi di AJB Bumiputera tersebut. Masalah yang muncul dalam AJB Bumiputera Surakarta adalah apabila ingin mengelompokkan nasabah yang lancar membayar premi dan tidak lancar membayar premi. Jika mengelompokkan nasabah yang tidak lancar membayar premi ke dalam kelompok nasabah yang lancar membayar premi merupakan kesalahan yang dapat berakibat cukup fatal. Lancar tidaknya pembayaran premi nasabahnya sangat penting bagi pihak Bumiputera 1912 Surakarta karena sangat berpengaruh terhadap kinerja serta eksistensinya dalam kehidupan sehari-hari. Untuk itu diperlukan suatu cara agar dapat mengetahui bagaimana pola nasabah yang dikatakan lancar maupun tidak lancar sehingga dapat membantu pihak Bumiputera dalam mengklasifikasikan nasabahnya. Dengan demikian pihak Bumiputera dapat mempertimbangkan nasabah yang akan nantinya akan diterima ataupun ditolak dengan hasil analisis tersebut. Berdasarkan uraian di atas, penulis tertarik untuk melakukan penelitian terhadap perusahaan asuransi khususnya AJB Bumiputera 1912 Surakarta dengan mengaplikasikan Algoritma Classification and Regression Tress (CART) dalam data nasabah, sehingga dapat dicari pola status nasabah untuk dapat dijadikan bahan analisis perusahaan dalam menentukan calon nasabah di masa yang akan datang.
1.2 Rumusan Masalah Berdasarkan latar belakang masalah, rumusan masalah yang dikemukakan adalah 1. bagaimana
implementasi
algoritma
CART
dalam
mengklasifikasi
mengelompokkan data nasabah AJB Bumiputera 1912 Surakarta. commit to user
atau
perpustakaan.uns.ac.id
digilib.uns.ac.id 3
2. bagaimana pola nasabah yang dihasilkan untuk menentukan calon nasabah yang akan datang.
1.3 Batasan Masalah Classification and Regression Trees (CART) terdiri dari dua metode yang berbeda yaitu pohon klasifikasi dan pohon regresi. Dalam skripsi ini pembahasan hanya dilakukan pada pembentukan pohon klasifikasi.
1.4 Tujuan Penelitian Tujuan penelitian ini adalah 1. mengklasifikasikan atau mengelompokkan data nasabah AJB Bumiputera 1912 Surakarta dengan menggunakan algoritma CART . 2. menentukan pola nasabah yang dihasilkan untuk menentukan calon nasabah yang akan datang.
1.5 Manfaat Penelitian Dengan dilakukannya penelitian tentang klasifikasi data nasabah AJB Bumiputera 1912 Surakarta diharapkan dapat menambah pengetahuan tentang peran nyata statistika dalam bidang keuangan khususnya asuransi. Hasil penelitian ini juga diharapkan dapat membantu semua pihak, khususnya pihak AJB Bumiputera 1912 Surakarta dalam mengklasifikasikan nasabahnya dan mengetahui pola yang terjadi berdasarkan klasifikasi yang didapatkan dari hasil analisis sehingga dapat menjadi sumbangan informasi untuk menentukan nasabah mana yang akan diterima ataupun ditolak selanjutnya.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB II LANDASAN TEORI 2.1 Tinjauan Pustaka Pada bagian ini diberikan beberapa definisi, teorema dan pengertian yang mendasari dilakukannya penelitian ini, meliputi teori probabilitas, masalah umum klasifikasi, algoritma CART, struktur pohon klasifikasi CART, binary recursive partitioning, langkah kerja CART, predictive accuracy, dan interpretasi pohon klasifikasi. 2.1.1
Teori Probabilitas
Teori probabilitas memberikan peranan yang sangat penting dalam membuat sebuah pohon klasifikasi dengan menggunakan algoritma CART ini. Definisi 2.1. (Wapole dan Myers, 1986) Bila suatu percobaan mempunyai N hasil percobaan yang berbeda dan masing-masing mempunyai kemungkinan yang sama untuk terjadi, dan bila tepat n diantara hasil percobaan itu menyusun kejadian A, maka peluang kejadian A adalah 𝑃 𝐴 =
𝑛 𝑁
Menurut Walpole dan Myers [7] kaidah-kaidah probabilitas yang banyak digunakan dalam membuat sebuah pohon klasifikasi, antara lain adalah 1. kaidah penjumlahan a. kaidah penjumlahan dua kejadian yang saling terpisah. Bila A dan B saling terpisah, maka 𝑃 𝐴∪𝐵 =𝑃 𝐴 +𝑃 𝐵 b. kaidah penjumlahan n buah kejadian yang saling terpisah. Bila 𝐴1 , 𝐴2 , ⋯ , 𝐴𝑛 kejadian-kejadian yang saling terpisah, maka 𝑃(𝐴1 ∪ 𝐴2 ∪ ⋯ ∪ 𝐴𝑛 ) = 𝑃 𝐴1 + 𝑃 𝐴2 + ⋯ + 𝑃 𝐴𝑛
commit to user 4
perpustakaan.uns.ac.id
digilib.uns.ac.id 5
c. bila A dan 𝐴′ adalah dua kejadian yang satu merupakan komplemen lainnya maka 𝑃 𝐴 + 𝑃 𝐴′ = 1 2. kaidah peluang bersyarat peluang bersyarat B, bila A diketahui dilambangkan dengan 𝑃 𝐵|𝐴 . didefinisikan sebagai 𝑃 𝐵|𝐴 =
𝑃(𝐴 ∩ 𝐵) ,𝑃 𝐴 > 0 𝑃(𝐴)
3. kaidah penggandaan a. kaidah penggandaan khusus Bila kejadian A dan B saling bebas maka 𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 .𝑃 𝐵 b. Jika kejadian-kejadian 𝐴1 , 𝐴2 , ⋯ , 𝐴𝑛 saling bebas, maka 𝑃(𝐴1 ∩ 𝐴2 ∩ 𝐴3 ⋯ ∩ 𝐴𝑛 ) = 𝑃 𝐴1 𝑃 𝐴2 𝑃 𝐴3 ⋯ 𝑃 𝐴𝑛 . 4. kaidah bayes Jika kejadian-kejadian 𝐵1 , 𝐵2 , ⋯ , 𝐵𝑛 merupakan partisi dari ruang sampel S dengan 𝑃(𝐵𝑖 ) ≠ 0 untuk 𝑖 = 1, 2, ⋯ , 𝑛 maka untuk sembarang kejadian A yang bersifat 𝑃(𝐴 ) ≠ 0 maka untuk 𝑘 = 1, 2, ⋯ , 𝑛 𝑃 𝐵𝑘 |𝐴 =
𝑃 𝐵𝑘 ∩ 𝐴 = 𝑛 𝑖=1 𝑃 𝐵𝑖 ∩ 𝐴
𝑃 𝐵𝑘 𝑃 𝐴|𝐵𝑘 𝑛 𝑖=1 𝑃 𝐵𝑖 𝑃 𝐴|𝐵𝑖
Probabilitas dalam CART Dalam learning sample ℒ dengan banyaknya kelas adalah j, diberikan N : banyaknya objek atau cases pada learning sample ℒ Nj : banyaknya objek atau cases pada kelas j dengan Probabilitas prior (𝜋𝑗 ) =
𝑁𝑗 𝑁
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 6
Probabilitas prior merupakan informasi awal mengenai proporsi atau perbandingan banyaknya objek pada tiap-tiap kelas dalam ℒ . Nilai probabilitas prior ini diestimasi dari proporsi
𝑁𝑗 𝑁
yang diperoleh dari data. Menurut Webb dan
Yohannes [8] setidaknya ada 2 jenis dari probabilitas prior dalam CART yaitu 1. priors data, mengasumsikan bahwa proporsi banyaknya objek dalam suatu kelas yang terdapat dalam sampel sama dengan yang terdapat dalam populasinya. Prior data diestimasi oleh (𝜋𝑗 ) =
𝑁𝑗 𝑁
.
2. priors equal, mengasumsikan bahwa proporsi banyaknya objek tiap-tiap kelas 1
adalah sama. Diestimasikan P(kelas1) = P(kelas 2) = . 2
Dalam sebuah node t, diberikan : 𝑁𝑡
∶ Banyaknya objek atau cases dalam ℒ yang mana 𝑥0 ∈ 𝑡 (banyaknya objek dalam node t
𝑁𝑗 𝑡 ∶ Banyaknya objek atau cases kelas j yang berada dalam node t 𝑁𝑗 (𝑡) 𝑁𝑗
∶ proporsi objek-objek dalam kelas j yang berada di node t
𝑃 𝑗, 𝑡 : probabilitas bahwa sebuah objek adalah anggota kelas j dan berada dalam node t sehingga 𝑃 𝑗, 𝑡 = 𝜋𝑗 . = 𝑃 𝑗, 𝑡 =
𝑁𝑗 𝑡 𝑁𝑗
𝑁𝑗 𝑁𝑗 (𝑡) . 𝑁 𝑁𝑗 𝑁𝑗 (𝑡) . 𝑁
(2.1)
Jika 𝑃 𝑡 adalah probabilitas beberapa objek akan berada dalam node t, maka berdasarkan rumusan (2.1), diperoleh commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 7
𝐽
𝑃 𝑡 =
𝑃(𝑗, 𝑡) 𝑗
= 𝑃 1, 𝑡 + 𝑃 2, 𝑡 + ⋯ + 𝑃 𝐽, 𝑡 𝑁𝐽 𝑡 𝑁1 𝑡 𝑁2 𝑡 + + ⋯+ 𝑁 𝑁 𝑁 𝑁𝑡 𝑃 𝑡 = . 𝑁 =
(2.2)
Jika 𝑃 𝑗|𝑡 adalah probabilitas bahwa sebuah objek adalah anggota kelas j yang berada dalam node t, maka berdasarkan persamaan (2.2) diperoleh 𝑁𝑗 (𝑡) 𝑁𝑗 (𝑡) 𝑃(𝑗, 𝑡) 𝑃 𝑗|𝑡 = = 𝑁 = 𝑁(𝑡) 𝑃(𝑡) 𝑁(𝑡) 𝑁 dan
𝑗
(2.3)
𝑃 𝑗|𝑡 = 1 .
2.1.2 Analisis Klasifikasi Analisis klasifikasi yaitu suatu analisis untuk memisahkan objek-objek ke dalam dua kelas atau lebih serta menentukan atau mengalokasikan objek-objek baru ke dalam kelas-kelas tersebut. Jadi, ada dua fungsi dalam analisis klasifikasi, yaitu 1. fungsi partisi, yaitu memisahkan objek-objek ke dalam dua kelas atau lebih berdasarkan aturan klasifikasi tertentu. 2. fungsi prediksi, yaitu untuk mengalokasikan objek-objek baru (belum diketahui kelasnya) ke dalam kelas-kelas tersebut. Untuk melakukan kedua fungsi tersebut digunakan suatu alat klasifikasi yaitu classifier dengan cara-cara atau metode yang sistematis. Beberapa contoh classifier diantaranya adalah Analisis Diskriminan, Regresi Logistik, K-th Nearest Neighbor, Kernel Density Estimation, Neural Network, dan Classification and Regression Trees (CART). Classifier memisahkan objek-objek ke dalam kelaskelas yang berbeda berdasarkan pengukuran pada M variabel random 𝑥𝑚 ; 𝑚 = commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 8
1, 2, 3, … , 𝑀 yang selanjutnya disebut dengan variabel independen sedangkan variabel yang memuat kelas-kelas dari objek disebut variabel dependen 𝑌 = { 𝑦1 , 𝑦2 , ⋯ , 𝑦𝐽 } dimana 𝑦𝑗 ∶ kelas ke- 𝑗 ; 𝑗 = 1, 2, ⋯ , 𝐽. Definisi 2.2. (Breiman et al, 1993) Classifier adalah partisi dari 𝑋 ke dalam 𝑗 himpunan bagian 𝐴1 , ⋯ , 𝐴𝐽 dengan 𝑋 =
𝑗
𝐴𝑗 sedemikian sehingga untuk
setiap 𝑥 𝜖 𝐴𝑗 objek tersebut diprediksikan ke dalam kelas j. 𝐴𝑗 = {𝑥 ∶ 𝑑 𝑥 = 𝑗} Classifier dibentuk berdasarkan data terdahulu atau observasi pada masa lampau (past experience). Data-data terdahulu ini terhimpun dalam satu bentuk susunan yang disebut dengan Learning Sample atau Training sample. Learning Sample terdiri dari variabel-variabel independen dan variabel dependen pada kolom dan objek-objek (cases) sebanyak N pada baris. Definisi 2.3. (Breiman et al, 1993) Learning sample terdiri dari data (𝑥𝑖1 , 𝑗1 ), (𝑥𝑖2 , 𝑗2 ), ⋯ , (𝑥𝑖𝑁 , 𝑗𝑁 ) dengan 𝑥𝑖𝑛 𝜖 𝑋 dan 𝑗𝑛 𝜖 1, ⋯ , 𝐽 , 𝑛 = 1, 2, ⋯ , 𝑁, dengan N adalah banyaknya objek (case). Learning sample dinotasilan dengan ℒ = { 𝑥𝑖1 , 𝑗1 , 𝑥𝑖2 , 𝑗2 , ⋯ , 𝑥𝑖𝑁 , 𝑗𝑁 .
2.1.3
Masalah Umum Klasifikasi (Misclassification, Rebstitution Estimate dan Misclassification Cost) Classification rules (aturan klasifikasi) sebagai hasil akhir dari pohon
klasifikasi yang terbentuk, nantinya akan digunakan untuk melakukan prediksi. Aturan klasifikasi ini tidaklah sepenuhnya terhindar dari kesalahan (error). Bentuk kesalahannya adalah kesalahan dalam mengklasifikasikan objek baru ke dalam suatu kelas (misclassification). Sebagai contoh sebuah objek diklasifikasikan ke dalam commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 9
kelas 𝑗2 padahal yang sebenarnya objek tersebut termasuk dalam kelas 𝑗1 . Begitu pula sebaliknya sebuah objek diklasifikasikan ke dalam kelas 𝑗1 , padahal sebenarnya objek itu termasuk dalam kelas 𝑗2 . Dalam CART untuk mengidentifikasi misclassification ini digunakan resubstitution estimate. Dalam perhitungannya resubstitution estimate menggunakan semua objek yang terdapat dalam ℒ. Definisi 2.4. (Breiman et al, 1993) Resubstitution estimate 𝑟(𝑡) adalah probabilitas atau peluang terjadinya misclassification di dalam sebuah node t tertentu. 𝑟 𝑡 = 1 − maks 𝑝(𝑗|𝑡). 𝑗
Definisi 2.5. (Breiman et al, 1993) Resubstitution estimate 𝑅(𝑡) adalah probabilitas atau peluang terjadinya misclassification yang dialami beberapa objek dalam learning sample jika objek tersebut berada dalam sebuah node t tertentu. 𝑅 𝑡 = 𝑟 𝑡 . 𝑃(𝑡) dengan 𝑃(𝑡) adalah probabilitas beberapa objek akan berada dalam node t. Definisi 2.6. (Breiman et al, 1993) Resubstitution estimate 𝑅(𝑇) adalah probabilitas atau peluang terjadinya misclassification yang dialami beberapa objek untuk keseluruhan terminal node t atau peluang terjadinya misclassification
yang
disebabkan oleh pohon klasifikasi yang terbentuk dengan 𝑅 𝑇 =
𝑅(𝑡) t ∈𝑇
𝑇 adalah himpunan semua terminal node. Konsep yang berkaitan dengan misclassification yaitu cost (misclassification cost). Konsep misclassification cost muncul karena dalam beberapa masalah klasifikasi tidaklah realistis untuk memberikan besar resiko yang sama terhadap kesalahan klasifikasi ini. Mungkin saja resiko melakukan kesalahan klasifikasi sebuah objek anggota kelas 1 menjadi anggota kelas 2 commit to user
lebih besar daripada
perpustakaan.uns.ac.id
digilib.uns.ac.id 10
melakukan kesalahan klasifikasi sebuah objek anggota kelas 2 menjadi anggota kelas 1 atau sebaliknya. Sebagai contoh dalam diagnosis suatu penyakit, menyatakan seorang pasien dalam kategori ”tidak fatal” padahal keadaan sebenarnya “fatal” jelas lebih beresiko daripada menyatakan bahwa ia “fatal” padahal keadaan sebenarnya “tidak fatal”. Definisi 2.7. (Breiman et al, 1993) 𝐶(𝑖|𝑗) adalah besar cost untuk terjadinya misclassification sebuah objek kelas j sebagai objek kelas i, dengan 𝐶 𝑖|𝑗 > 0, 𝑖 ≠ 𝑗 dan 𝐶 𝑖|𝑗 = 0, 𝑖 = 𝑗. Besar cost dari misclassification ini biasa dituliskan dalam bentuk cost matriks. Kelas Sebenarnya
Hasil Prediksi
1
2
1
0
C(1|2)
2
C(2|1)
0
Misal diketahui sebuah node t dengan probabilitas 𝑃 𝑗|𝑡 tertentu, 𝑗 = 1, 2, ⋯ , 𝐽 jika diketahui sebuah objek berada dalam node t tersebut dan diklasifikasikan ke dalam kelas
i,
maka
estimasi
rata-rata
ongkos
kesalahan
klasifikasi
(expected
misclassification cost) adalah 𝐶 𝑖|𝑗 𝑃 𝑗|𝑡 . 𝑗
Selanjutnya didefinisikan resubstitution estimate 𝑟(𝑡) berdasarkan expected misclassification cost ini. Definisi 2.8. (Breiman et al, 1993) Resubstitution estimate 𝑟(𝑡) berdasarkan expected misclassification cost di dalam sebuah node t adalah 𝑟 𝑡 = min 𝑖
𝐶 𝑖|𝑗 𝑃(𝑗|𝑡). 𝑗
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 11
Dengan mendefinisikan 𝑅 𝑡 = 𝑟 𝑡 𝑃 𝑡 𝑑𝑎𝑛 𝑅 𝑇 =
t∈ 𝑇 𝑅
𝑡 .
Jika dipunyai nilai 𝐶 𝑖|𝑗 = 1 𝑢𝑛𝑡𝑢𝑘 𝑖 ≠ 𝑗 𝑑𝑎𝑛 𝐶 𝑖|𝑗 = 0 untuk 𝑖 = 𝑗 maka diperoleh 𝐶 𝑖|𝑗 𝑃 𝑗|𝑡 = 𝑗
𝑃 𝑗|𝑡 𝑃 𝑖 𝑡 . 𝑗
Berdasarkan persamaan (2.3) maka diperoleh 𝐶 𝑖|𝑗 𝑃 𝑗|𝑡 = 1 − 𝑃(𝑖|𝑡) 𝑗
sehingga 𝑟 𝑡 = min 𝑖
𝐶 𝑖|𝑗 𝑃 𝑗|𝑡 𝑗
= min 1 − 𝑃 𝑖|𝑡 . 𝑖
Nilai min𝑖 (1 − 𝑃 𝑖|𝑡 ) akan diperoleh apabila 𝑃 𝑖|𝑡 maksimum, sehingga dapat dituliskan pula 𝑟 𝑡 = 1 − max𝑖 𝑃(𝑖|𝑡), yang identik dengan definisi 2.4. Berdasarkan hasil di atas, definisi 2.5 adalah resubstitution estimate 𝑟 𝑡 dalam sebuah node t apabila semua nilai 𝐶 𝑖|𝑗 = 1 atau sama untuk semua 𝑖 ≠ 𝑗.
2.1.4
Algoritma CART
Algoritma CART adalah sebuah metode statistik nonparametrik yang digunakan untuk melakukan analisis klasifikasi. Algoritma CART pertama kali diperkenalkan pada tahun 1993 oleh ilmuwan Amerika Serikat yaitu Breiman, et al. Algoritma CART terdiri dari dua analisis yaitu pohon klasifikasi dan pohon regresi. Jika variabel dependen yang dimiliki bertipe kategorik (nominal atau ordinal), maka CART menghasilkan pohon klasifikasi sedangkan jika variabel dependen yang dimiliki bertipe kontinu atau numerik (interval atau rasio) maka CART akan menghasilkan pohon regresi. Pohon CART dikatakan binary decision tree karena merupakan algoritma pohon keputusan yang dibangun dengan memisahkan node ke
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 12
dalam dua child nodes secara berulang-ulang diawali dengan root node. Dalam skripsi ini pembahasan dikhususkan pada pohon klasifikasi. Menurut Lewis [3] beberapa keunggulan CART dibanding dengan metode statistik yang lain (khususnya parametrik) diantaranya adalah 1. variabel-variabel dalam CART baik variabel independen maupun dependen tidak mendasarkan atau mengasumsikan distribusi populasinya pada distribusi probabilitas tertentu. Sehingga CART termasuk dalam kelompok metode statistik nonparametrik. 2. variabel–variabel independen dalam CART bisa bertipe kategorik (nominal atau ordinal) tanpa diperlukannya pembuatan variabel dummy ataupun juga bisa bertipe kontinu. 3. CART mampu untuk mengatasi missing value. 4. CART tidak terpengaruh oleh adanya outlier, kolinearitas, dan heteroskedastisitas diantara variabel independennya. 5. dalam CART tidak berlaku adanya transformasi data. Data-data asli yang dirubah ke dalam bentuk apapun tidak akan mempengaruhi dalam pembentukan pohon klasifikasinya. 6. interpretasi dari pohon klasifikasi yang dihasilkan oleh CART sangat mudah dipahami oleh para pengguna.
2.1.5
Struktur atau Bentuk Pohon Klasifikasi CART
Algoritma CART termasuk dalam anggota analisis klasifikasi yang disebut decision trees karena proses analisis dari CART digambarkan dalam bentuk atau struktur yang menyerupai sebuah pohon, lebih tepatnya pohon klasifikasi yang berbentuk biner. Biner di sini bararti bahwa setiap pemecahan parent node menghasilkan 2 child nodes.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 13
Adapun bentuk pohon klasifikasi CART digambarkan pada Gambar 2.1 berikut: t1
X1 ≤ a
X1 > a
Split 1
t2
t3
X2 ≤ b
X2 > b Split 2
Split 3
t4
t5
Split 4
t8
A4
Split 5
t9
A5
t7
t6
Split 6
t10
t11
t12
A3
A2
A6
t13 Split 8
Split 7
t1
t14
t15
t16
t17
A2
A1
A3
A4
= Root Node
= nonterminal node
= branch
= terminal node
Gambar 2.1 Pohon Klasifikasi CART Keterangan Gambar 2.1 : 1. Root Node digambarkan dengan lingkaran. Merupakan nonterminal node paling awal atau paling atas dan tempat inisialisasi learning sample yang dimiliki. Inisialisasi disini menyangkut beberapa objek atau cases yang dimiliki oleh tiaptiap kelas. 2. Branch digambarkan dengan 2 garis lurus yang merupakan cabang dari root node. Branch merupakan tempat kriteria pemecahan dari masing-masing nonterminal node. Sebagai contoh : kriteria pemecahan pertama (split 1) pada branch kiri adalah 𝑥1 ≤ 𝑎 dan branch kanan adalah 𝑥1 > 𝑎 .
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 14
3. Nonterminal nodes digambarkan dengan lingkaran. Merupakan subset atau himpunan bagian dari nonterminal node di atasnya yang memenuhi kriteria pemecahan tertentu. Sebagai contoh : objek-objek yang berada dalam nonterminal node 𝑡5 merupakan subset atau himpunan bagian dari objek-objek yang berada dalam nonterminal node 𝑡2 yang memenuhi kriteria pemecahan 𝑥2 > 𝑏. 4. Terminal nodes, digambarkan dengan persegi. Merupakan node tempat diprediksikannya sebuah objek pada kelas tertentu (class labeled). Sebagai contoh : jika ada beberapa objek yang masuk dalam terminal node 𝑡6 , maka objek-objek tersebut akan dimasukkan kedalam kelas 𝐴4 . 5. Node 𝑡4 dan 𝑡5 merupakan child node dari node 𝑡2 , sedangkan node 𝑡2 merupakan child node dari root node 𝑡1 . Begitu pun sebaliknya root node 𝑡1 merupakan parent node untuk node 𝑡2 dan node 𝑡3 , node 𝑡2 merupakan parent node untuk node 𝑡4 dan 𝑡5 , sedangkan node 𝑡3 merupakan parent node untuk node 𝑡6 dan node 𝑡7 , dst. 2.1.6
Binary Recursive Partitioning
Teknik atau proses kerja dari CART dalam membuat sebuah pohon klasifikasi dikenal dengan istilah Binary Recursive Partitioning. Proses disebut binary karena setiap parent node akan selalu mengalami pemecahan ke dalam tepat dua child node. Sedangkan recursive berarti bahwa proses pemecahan tersebut akan diulang kembali pada setiap child nodes hasil pemecahan terdahulu, sehingga child nodes tersebut sekarang menjadi parent nodes. Proses pemecahan ini akan terus dilakukan sampai tidak ada kesempatan lagi untuk melakukan pemecahan berikutnya. Dan istilah partitioning mengartikan bahwa learning sample yang dimiliki dipecah ke dalam bagian-bagian atau partisi-partisi yang lebih kecil. Kriteria pemecahan didasarkan pada nilai-nilai dari variabel independen yang dimiliki. Misalkan dimiliki variabel dependen 𝑦 yang bertipe kategorik dan variabelcommit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 15
variabel independen 𝑥1 , 𝑥2 , ⋯ , 𝑥𝑝 . Proses binary recursive partitioning bisa diilustrasikan sebagai proses pembagian dari ruang berdimensi 𝑝 dari variabelvariabel independen 𝑥 ke dalam partisi-partisi yang berbentuk persegi panjang dan tidak saling bertumpang tindih. Idenya adalah membagi ruang berdimensi 𝑝 dari variabel-variabel independen tadi ke dalam beberapa partisi yang mana masingmasing partisi berisi objek-objek yang homogen atau seragam. Homogen di sini maksudnya adalah objek-objek tersebut merupakan anggota satu kelas yang sama. Walaupun pada kenyataannya keadaan seperti ini tidaklah mutlak diperoleh. Proses splitting akan berlanjut sampai didapatkan pohon klasifikasi yang paling besar atau maksimal (proses splitting tidak bisa dilakukan lagi)
t1
t2
t3 X≤a
X>a t2
a
t1
t4 t2 t5
t3
b
X≤a
X>a
t2
t3
a X≤b t4
X>b t5
Gambar 2.2. Proses Partisi Untuk memperjelas proses partisi, akan diberikan contoh pemilahan pada Gambar 2.2. Pada Gambar 2.2 terlihat proses partisi node 𝑡1 dipilah dengan kriteria pemecahan 𝑥 ≤ 𝑎 dan 𝑥 > 𝑎 . Pemecahan yang dihasilkan adalah node 𝑡2 akibat commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 16
dari kriteria 𝑥 ≤ 𝑎 sedangkan node 𝑡3 terbentuk akibat kriteria pemecahan 𝑥 > 𝑎. Kemudian proses partisi berlanjut pada node 𝑡3 , dengan kriteria pemecahan 𝑥 ≤ 𝑏 dan 𝑥 > 𝑏. Node 𝑡4 terbentuk karena memenuhi kriteria 𝑥 ≤ 𝑏 dan node 𝑡5 terbentuk karena kriteria 𝑥 > 𝑏. 2.1.7
Langkah Kerja CART
Menurut Lewis [3] pada dasarnya dalam membuat sebuah pohon klasifikasi, CART bekerja dalam empat langkah utama. Langkah pertama adalah tree building process yaitu proses pembentukan dan pembuatan pohon klasifikasi. Terdiri dari proses splitting nodes yaitu proses pemecahan parent nodes menjadi dua buah child node melalui aturan pemecahan tertentu dan dilakukan secara berulang-ulang serta proses pelabelan kelas yaitu proses mengidentifikasi node-node yang terbentuk pada suatu kelas tertentu melalui aturan pengidentifikasian. Langkah kedua adalah proses penghentian pembuatan atau pembentukan pohon klasifikasi (stopping the trees building process). Pada tahap ini pohon terakhir atau maximal tree (𝑇𝑚𝑎𝑥 ) telah terbentuk. Langkah ketiga adalah pruning the tree yaitu proses pemangkasan atau pemotongan 𝑇𝑚𝑎𝑥 menjadi pohon yang lebih kecil (T). Selanjutnya langkah terakhir adalah proses optimal tree selection yaitu pemilihan atau penentuan pohon klasifikasi yang optimal.
2.1.7.1 Proses Pemecahan Node Proses pemecahan pada masing-masing parent node didasarkan pada goodness of split criterion (kriteria pemecahan terbaik). Kriteria pemecahan terbaik ini dibentuk berdasarkan fungsi impurity (fungsi keragaman). Definisi 2.9. (Breiman et al, 1993) Fungsi impurity adalah sebuah fungsi 𝜙 yang didefinisikan oleh (𝑃1 , 𝑃2 , ⋯ , 𝑃𝑗 ) ; 𝑃𝑗 ≥ 0 𝑑𝑎𝑛
𝑗 𝑃𝑗
Fungsi impurity 𝜙 memenuhi kriteria: (i) 𝜙 maksimum apabila nilai-nilai commit to user
= 1, 𝑗 = 1, 2, ⋯ , 𝐽.
perpustakaan.uns.ac.id
digilib.uns.ac.id 17
(𝑃1 , 𝑃2 , ⋯ , 𝑃𝑗 ) =
1 1 1 , ,⋯, . 1 2 𝑗
(ii) 𝜙 minimum apabila nilai-nilai (𝑃1 , 𝑃2 , ⋯ , 𝑃𝑗 ) = 1, 0, ⋯ ,0 , 0,1, ⋯ ,0 , ⋯ , 0,0, ⋯ ,1 . (iii) 𝜙 adalah fungsi simetris dari 𝑃1 , 𝑃2 , ⋯ , 𝑃𝑗 . Definisi 2.10. (Breiman et al, 1993) Diberikan fungsi impurity, maka impurity measure (ukuran impurity) i(t) dari beberapa node t sebagai 𝑖 𝑡 = 𝜙 𝑃 1|𝑡 , 𝑃 2|𝑡 , ⋯ , 𝑃 𝑗|𝑡 . Definisi 2.11. (Breiman et al, 1993) Diberikan impurity measure i(t), maka Gini Diversity Index (Indek Keragaman Gini) adalah : 𝑖 𝑡 =
𝑃 𝑗|𝑡 𝑃 𝑖|𝑡
(2.4)
𝑗 ≠𝑖
Dalam sebuah node t, andaikan terdapat 1, 2 ⋯ , 𝑗 kelas. Untuk j = 1 dan i adalah kelas-kelas lainnya maka (2.4) dapat dituliskan 𝑃 𝑗|𝑡 𝑃 𝑖|𝑡 = 𝑃 1|𝑡 𝑃 2|𝑡 + 𝑃 1|𝑡 𝑃 3|𝑡 + ⋯ + 𝑃 1|𝑡 𝑃(𝑖|𝑡) 𝑗 ≠𝑖
= 𝑃 1|𝑡 [ 𝑃 2|𝑡 + 𝑃 3|𝑡 + ⋯ + 𝑃 𝑖|𝑡 ]
Karena 𝑃 1|𝑡
𝑗
(2.5)
𝑃 𝑗|𝑡 = 1 , sehingga (2.5) menjadi
𝑃 2|𝑡 + 𝑃 3|𝑡 + ⋯ + 𝑃 𝑖|𝑡
= 𝑃(1|𝑡)
𝑃 𝑗|𝑡 − 𝑃(1|𝑡) 𝑗
= 𝑃 1|𝑡 (1 − 𝑃 1|𝑡 ) = 𝑃 1|𝑡 − 𝑃2 1|𝑡 . Begitu pula untuk j = 2 dan i adalah kelas-kelas lainnya maka (2.4) dapat dituliskan 𝑃 𝑗|𝑡 𝑃 𝑖|𝑡 = 𝑗 ≠𝑖
2 𝑗 =1,𝑗 ≠𝑖
(𝑃 𝑗|𝑡 − 𝑃2 𝑗|𝑡 .
Untuk j = 3 dan i adalah kelas-kelas lainnya maka (2.4) dapat dituliskan commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 18
𝑃 𝑗|𝑡 𝑃 𝑖|𝑡 = 𝑗 ≠𝑖
3 𝑗 =1,𝑗 ≠𝑖
(𝑃 𝑗|𝑡 − 𝑃2 𝑗|𝑡
Sehingga untuk j kelas secara umum, didapatkan : (𝑃 𝑗|𝑡 − 𝑃2 (𝑗|𝑡))
𝑃 𝑗|𝑡 𝑃 𝑖|𝑡 = 𝑗 ≠𝑖
=
𝑗
=1−
𝑗
𝑃 𝑗|𝑡 −
𝑗
𝑗
𝑃2 𝑗|𝑡
𝑃2 𝑗|𝑡 .
Sehingga berdasarkan (2.4) Gini Diversity Index dapat dituliskan 𝑖 𝑡 =1−
𝑗
𝑃2 𝑗|𝑡 .
Rumus (2.4) hanya berlaku apabila besar cost untuk resiko kesalahan klasifikasi masing-masing kelas sama, C(1|2) = C(1|3) = C(i|j) jika besar cost berbeda maka (2.4) dituliskan 𝑖 𝑡 =
𝐶 𝑖 𝑗 𝑃 𝑗|𝑡 𝑃 𝑖|𝑡 . 𝑗 ≠𝑖
Definisi 2.12. (Breiman et al, 1993) Jika sebuah split s dalam node t dibagi ke dalam 𝑡𝑅 dengan proporsi banyaknya objek yang masuk dalam 𝑡𝑅 adalah 𝑃𝑅 , dan 𝑡𝐿 dengan proporsi banyaknya objek yang masuk dalam 𝑡𝐿 adalah 𝑃𝐿 , maka didefinisikan decrease impurity (pengurangan keragaman) ∆𝑖 𝑠, 𝑡 = 𝑖 𝑡 − 𝑃𝑅 𝑖 𝑡𝑅 − 𝑃𝐿 𝑖 𝑡𝐿 Nilai ∆𝑖 𝑠, 𝑡
(2.6)
digunakan sebagai uji goodness of split criterion (kriteria uji
pemecahan terbaik). Suatu split s akan digunakan untuk memecah node t menjadi dua buah node yaitu node 𝑡𝑅 dan 𝑡𝐿 jika s memaksimalkan nilai ∆𝑖 𝑠 ∗ , 𝑡 = max ∆𝑖 𝑠, 𝑡 . 𝑠
Berdasarkan (2.6) ∆𝑖 𝑠, 𝑡 akan maksimum apabila diperoleh 𝑃𝑅 𝑖 𝑡𝑅 dan 𝑃𝐿 𝑖 𝑡𝐿 minimum. Hal ini berarti splitting (pemecahan) dilakukan untuk membuat dua buah commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 19
node baru yang keragamannya lebih kecil (homogen) apabila dibandingkan dengan node awalnya (parent node). Misalkan sebuah pohon klasifikasi telah terbentuk dan memiliki sekumpulan atau himpunan terminal nodes 𝑇, didefinisikan impurity node I(t), dengan 𝐼 𝑡 =𝑖 𝑡 𝑃 𝑡 . Didefinisikan pula tree impurity 𝐼 𝑇 , dengan 𝐼 𝑇 =
𝑡∈ 𝑇
𝐼 𝑡 =
𝑡∈ 𝑇
𝑖 𝑡 𝑃 𝑡
sehingga didapatkan hasil sebagai berikut ∆𝐼 𝑠, 𝑡 = 𝐼 𝑡 − 𝐼 𝑡𝑅 − 𝐼 𝑡𝐿 . Proposisi 2.1. Pemilihan split s yang memaksimalkan ∆𝑖 𝑠, 𝑡 ekuivalen dengan pemilihan split s yang meminimalkan tree impurity 𝐼 𝑡 .
2.1.7.2 Pelabelan Kelas Pelabelan kelas adalah proses pengidentifikasian tiap nodes pada suatu kelas tertentu. Pelabelan kelas tidak hanya diberlakukan untuk terminal nodes saja, nonterminal nodes bahkan root node mengalami proses ini. Hal ini dikarenakan setiap nonterminal nodes memiliki kesempatan untuk menjadi terminal nodes. Sehingga proses pelabelan kelas akan terus dilakukan selama proses splitting masih berlanjut. Walaupun semua nodes mengalami proses ini, tentu saja diantaranya yang paling membutuhkan proses ini adalah terminal nodes, karena terminal nodes adalah nodes yang sangat penting dalam memprediksi suatu objek pada kelas tertentu jika objek tersebut berada pada terminal nodes tersebut. Misalkan sebuah pohon klasifikasi telah terbentuk dan memiliki terminal nodes 𝑇. Definisi 2.13. (Breiman et al, 1993) Class assignment rule mengidentifikasikan sebuah kelas 𝑗 ∈ {1, 2, ⋯ , 𝑗} pada setiap terminal node 𝑡 ∈ 𝑇. Kelas yang diidentifikasikan pada node 𝑡 ∈ 𝑇 dinotasikan dengan 𝑗 ∗ (𝑡). commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 20
Ada dua aturan pelabelan kelas, masing-masing aturan berdasarkan kepada dua macam misclassification cost yang berbeda. Kedua aturan itu diterangkan pada definisi-definisi berikut Definisi 2.14. (Breiman et al, 1993) Class assignment rule 𝑗 ∗ (𝑡) didefinisikan apabila 𝑝 𝑗|𝑡 = max𝑖 𝑝 𝑖|𝑡 𝑚𝑎𝑘𝑎 𝑗 ∗ 𝑡 = 𝑗 Aturan ini disebut the plurality rule (aturan keragaman) dan berdasarkan nilai misclassification cost yang sama pada setiap kelas. Definisi 2.15. (Breiman et al, 1993) Didefinisikan class assignment rule 𝑗 ∗ (𝑡), 𝑗 ∗ 𝑡 = 𝑖0 apabila 𝑖0 meminimalkan
𝑗
𝐶 𝑖|𝑗 𝑝(𝑗|𝑡)
Aturan ini berdasarkan nilai misclassification cost yang berbeda untuk tiap kelas 𝐶 𝑖|𝑗 > 0 jika 𝑖 ≠ 𝑗 dan 𝐶 𝑖|𝑗 = 0 jika 𝑖 = 𝑗. Resubstitution estimate adalah konsekuensi logis dari proses pelabelan kelas ini. Resubstitution estimate 𝑅 𝑡 adalah probabilitas terjadinya misclassification yang dialami beberapa objek-objek tersebut pada node t tertentu. Proses splitting pada node t menyatakan 𝑅 𝑡
yang kecil pada kedua node baru yang terbentuk. Hal ini
dibuktikan melalui proposisi berikut. Proposisi 2.2. (Breiman, et al, 1993) Untuk setiap pemecahan node t menjadi 𝑡𝑅 dan 𝑡𝐿 berlaku 𝑅(𝑡) ≥ 𝑅(𝑡𝑅 ) + 𝑅 𝑡𝐿 . 2.1.7.3. Proses Penghentian Pemecahan Menurut Vayssieres [4], proses splitting atau pembuatan pohon klasifikasi akan berhenti apabila sudah tidak dimungkinkan lagi dilakukan proses pemecahan. Proses pemecahan akan berhenti apabila hanya tersisa satu objek saja yang ada dalam node terakhir atau semua objek yang berada di dalam sebuah node merupakan anggota kelas yang sama (homogen). Kemudian 𝑃 𝑗, 𝑡 bernilai 0 atau 1. 𝑅 𝑡 = 0, dan resubstitution estimate 𝑅 𝑇 untuk nilai misclassification sama dengan 0. Pada umumnya nilai 𝑅 𝑇 menurun saat jumlah terminal node meningkat. Node-node commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 21
terakhir atau yang tidak mengalami pemecahan lagi sebagai akibat dari kondisi di atas akan menjadi terminal nodes dan diidentifikasikan pada suatu kelas tertentu sesuai dengan class assignment rule yang telah dijelaskan sebelum ini. Pohon klasifikasi yang terbentuk sebagai hasil dari proses ini dinamakan “maximal tree” (𝑇𝑚𝑎𝑥 ). 2.1.7.4. Proses Pemangkasan Pohon Maximal tree (𝑇𝑚𝑎𝑥 ) yang dihasilkan dari proses tree building dapat mengakibatkan dua masalah, Webb dan Yohannes [8] : 1. Meskipun 𝑇𝑚𝑎𝑥
memiliki tingkat akurasi yang tinggi dengan nilai
misclassification rate atau misclassification cost yang kecil bahkan bernilai nol (dihitung dengan metode resubstitution estimate), namun 𝑇𝑚𝑎𝑥 dapat menyebabkan over-fitting atau pencocokan nilai yang terlalu kompleks pada data-data baru. Hal ini dikarenakan terlalu banyak variabel independen yang digunakan untuk melakukan prediksi terhadap data baru tersebut. 2. Sebagai akibat dari point 1, 𝑇𝑚𝑎𝑥
akan sulit untuk dipahami atau
diinterpretasikan. Sehingga 𝑇𝑚𝑎𝑥 akan lebih cepat dikatakan sebagai complex tree yang kompleksitasnya ditentukan dari banyaknya terminal node yang dimiliki. Proses pemangkasan pohon dimaksudkan untuk menghilangkan kedua masalah tersebut dengan memotong atau memangkas 𝑇𝑚𝑎𝑥 menjadi beberapa pohon klasifikasi (T) yang ukurannya lebih kecil (subtrees). Untuk mempermudah dalam memahami proses pemangkasan ini, berikut diberikan penjelasan awal mengenai proses ini. Sebuah node 𝑡′ disebut descendan (anak) dari node t dan node t disebut ancestor dari node 𝑡 ′ jika kedua node ini bisa dihubungkan oleh jalur-jalur yang bergerak dari atas ke bawah (node t berada di atas node 𝑡′). Pada Gambar 2.3 pohon klasifikasi T, 𝑡4 , 𝑡5 , 𝑡8 , 𝑡9 , 𝑡10 , dan 𝑡11 adalah descendan dari 𝑡2 tetapi tidak dengan 𝑡6
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 22
dan 𝑡7 . Begitu pula dengan 𝑡4 , 𝑡2 , dan 𝑡1 bukanlah ancestor dari 𝑡9 .
adalah ancestor dari , 𝑡9 , tetapi 𝑡3
t1
t2
t3
t4
t5
t8
t9
t6
t10
t7
t11
Gambar 2.3. Pohon Klasifikasi T t2
t4
t5
t9
t8
t10
t11
Gambar 2.4. Branch Tt2 t1
t2
t3
t6
t7
Gambar 2.5. Pohon Klasifikasi T – Tt2 ( pruned subtree ) commit to user
(Breiman et al., 1993)
perpustakaan.uns.ac.id
digilib.uns.ac.id 23
Definisi 2.16. (Breiman et al, 1993) Suatu branch 𝑇𝑡 dari T dengan root node (node akar) 𝑡 ∈ 𝑇 terdiri dari node t itu sendiri dengan semua descendant dari t dalam T. Sebagai contoh pada gambar 2.4. branch 𝑇𝑡2 . Definisi 2.17. (Breiman et al, 1993) Pruning (pemangkasan) sebuah branch 𝑇𝑡 dari sebuah pohon T akan menghapus atau menghasilkan semua descendant t dari T kecuali root nodenya (t itu sendiri). Sebagai contoh pada Gambar 2.5. pohon klasifikasi 𝑇 − 𝑇𝑡2 . Definisi 2.18. (Breiman et al, 1993) Jika 𝑇′ diperoleh dari 𝑇 sebagai hasil dari pemangkasan suatu branch, maka 𝑇′ disebut pruned subtree dari T dan dinotasikan dengan 𝑇 ′ < 𝑇. Sebagai catatan 𝑇′ dan T memiliki root node (node akar) yang sama. Sebagai contoh gambar pohon klasifikasi 𝑇 − 𝑇𝑡2 menunjukkan pruned subtree. Metode yang digunakan dalam proses pemangkasan pohon berdasarkan pada minimal cost complexity pruning. 𝑅 𝑇 =
𝑟 𝑡 𝑃 𝑡 = 𝑡∈𝑇
𝑅(𝑡) 𝑡∈𝑇
𝑅 𝑇 adalah tree misclassification cost atau tree resubtitution cost, sedangkan 𝑅(𝑡) disebut node misclassification cost. Definisi 2.19. (Breiman et al, 1993) Diketahui subtree 𝑇 < 𝑇𝑚𝑎𝑥 didefinisikan complexity (kompleksitas) dari subtree ini adalah 𝑇 , yaitu banyaknya terminal nodes yang dimiliki T, 𝛼 ≥ 0 adalah complexity parameter atau node complexity dan cost complexity measure (ukuran ongkos kompleksitas) 𝑅𝛼 (𝑇), maka 𝑅𝛼 𝑇 = 𝑅 𝑇 + 𝛼 𝑇 . Nilai 𝛼 bisa diartikan sebagai penalty setiap terminal node berdasarkan kompleksitasnya, semakin besar nilai 𝛼 maka ukuran tree yang dihasilkan akan kecil, sebaliknya jika nilai 𝛼 kecil maka kompleksitas nodenya juga kecil sehingga ukuran tree yang dihasilkan akan besar. Sehingga contoh sebuah 𝑇𝑚𝑎𝑥 memiliki terminal node yang berisi hanya satu objek atau homogen sehingga sehingga nilai 𝛼 untuk 𝑇𝑚𝑎𝑥 adalah 0 dan complexity measure mencapai minimum karena 𝑅(𝑇max ) = 0. commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 24
Nilai 𝛼 akan terus meningkat selama proses pruning berlangsung dan akan mencapai nilai terbesar pada saat terminal node sama dengan root node. Cost complexity pruning menentukan suatu pohon bagian 𝑇(𝛼) yang meminimumkan 𝑅𝛼 𝑇 pada seluruh pohon bagian, atau untuk setiap nilai 𝛼, dicari pohon bagian 𝑇 𝛼 < 𝑇𝑚𝑎𝑥 yang meminimumkan 𝑅𝛼 𝑇 yaitu 𝑅𝛼 𝑇 𝛼
= min 𝑅𝛼 𝑇 . 𝑇<𝑇𝑚𝑎𝑥
Proses pemangkasan pohon klasifikasi dimulai dengan mengambil 𝑡𝑅 yang merupakan right child node dan 𝑡𝐿 yang merupakan left child node dari 𝑇𝑚𝑎𝑥 yang dihasilkan dari parent node t. jika diperoleh dua child node dan parent node yang memenuhi persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿 ) maka child node 𝑡𝑅 dan 𝑡𝐿 dipangkas. Hasilnya adalah pohon 𝑇1 yang memenuhi kriteria 𝑅 𝑇1 = 𝑅(𝑇𝑚𝑎𝑥 ). Proses tersebut diulang sampai tidak ada lagi pemangkasan yang mungkin terjadi. Dan diperoleh urutan sebagai berikut 𝑇1 , 𝑇2 , ⋯ , 𝑡1 , 𝑇1 > 𝑇2 > ⋯ > {𝑡1 } . Dengan urutan 𝛼 sebagai berikut 𝛼1 = 0 < 𝛼2 < 𝛼3 < ⋯ < 𝛼𝑘 . 2.1.7.5. Pohon Klasifikasi Optimal Pohon klasifikasi yang terbentuk dapat berukuran besar dan kompleks dalam mengambarkan struktur data. Sehingga perlu dilakukan suatu pemangkasan, yaitu suatu penilaian ukuran sebuah pohon tanpa mengorbankan kebaikan ketepatan melalui pengurangan simpul pohon sehingga dicapai penghematan gambaran. Pemangkasan dilakukan dengan memangkas bagian pohon yang kurang penting sehingga didapat pohon optimal. Metode pemangkasan pohon sebelumnya menghasilkan urutan subtree 𝑇1 > 𝑇2 > ⋯ > {𝑡1 } karena pohon klasifikasi yang dihasilkan begitu banyak maka permasalahan sekarang adalah bagaimana caranya menentukan pohon klasifikasi yang optimum. Jika menggunakan resubtitution estimate 𝑅 𝑇 =
𝑟 𝑡 𝑃 𝑡 = 𝑡∈𝑇
commit to user
𝑅(𝑡) 𝑡∈𝑇
perpustakaan.uns.ac.id
digilib.uns.ac.id 25
Maka 𝑇1 akan terpilih sebagai pohon optimum, karena nilai resubtitution estimate dari 𝑇1 pasti paling kecil. Oleh karena itu metode resubtitution estimate merupakan metode yang bias untuk mengestimasi true misclassification cost. Ada dua metode tak bias untuk mengestimasi nilai true misclassification cost yaitu penduga uji sample (test sample estimate) dan penduga validasi silang lipat V (cross validation V-fold estimate). 1. Test Sample Estimate Test sample digunakan jika ukuran data besar (ℒ besar). Bagilah ℒ menjadi ℒ1 dan ℒ2 . Misal ℒ1 sebanyak 𝑁 (1) objek dan ℒ2 sebanyak 𝑁 (2) objek. Buatlah 𝑇𝑚𝑎𝑥 menggunakan ℒ1 dan pangkas hingga diperoleh 𝑇𝑘 = 𝑇1 > 𝑇2 > 𝑇3 > ⋯ > {𝑡} . Gunakan ℒ2 pada masing-masing tree dan hitunglah berapa banyak objek yang mengalami kesalahan klasifikasi (misclassification). Untuk lebih jelasnya dinotasikan (2)
𝑁𝑗
adalah banyaknya objek anggota kelas j dalam ℒ2 . Untuk setiap T pada 𝑇𝑘 (2)
hitunglah nilai 𝑁𝑖𝑗
yaitu banyaknya kelas j dalam ℒ2 yang diklasifikasikan sebagai
kelas i oleh T. Dengan estimasi 𝑄 ∗ 𝑖|𝑗
adalah 𝑄 𝑡𝑠 𝑖|𝑗 =
(2)
𝑁𝑖𝑗
(2)
𝑁𝑗
(2)
, jika 𝑁𝑗
= 0, maka
𝑄 𝑡𝑠 𝑖|𝑗 = 0, sehingga diperoleh estimasi 𝑅 ∗ 𝑗 adalah 𝑅 𝑡𝑠 𝑗 =
𝑖
𝐶(𝑖|𝑗)𝑄 𝑡𝑠 𝑖|𝑗 .
Jika estimasi probabilitas prior (𝜋𝑗 ) maka didapatkan estimasi 𝑅 ∗ 𝑑 , maka 𝑅 𝑡𝑠 𝑇 =
𝑖
𝑅 𝑡𝑠 𝑗 𝜋𝑗 . 𝑁
(2)
Jika probalitas prior diestimasi dari data sampel diperoleh 𝜋𝑗 = 𝑁𝑗(2) maka bisa dihitung oleh 𝑅 𝑡𝑠 𝑇 =
1 𝑁 (2)
(2)
𝑖,𝑗
𝐶(𝑖|𝑗)𝑁𝑖𝑗 .
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 26
Test sample estimate dapat digunakan untuk memilih pohon klasifikasi yang optimum dari 𝑇𝑘 , misal tree optimum adalah 𝑇𝑘0 𝑅 𝑡𝑠 𝑇𝑘0 = min 𝑅 𝑡𝑠 𝑇𝑘 . 𝑘
2. V-Fold Cross Validation Estimates Cross validation digunakan apabila ukuran sampel kecil. Dalam V-Fold Cross Validation , learning sample ℒ dibagi secara acak ke dalam V bagian, ℒ𝑣 , v = 1, 2, ⋯, V. setiap bagian berisi objek dalam jumlah yang sama (mendekati sama). Learning sample ke-v adalah ℒ (𝑣) = ℒ − ℒ𝑣 , 𝑣 = 1, 2, ⋯ , 𝑉. Dengan demikian ℒ (𝑣) berisi (𝑉−1) 𝑉
dari total objek. Biasanya diambil 𝑉 = 10, sehingga ℒ (𝑣) berisi
9 10
objek dari ℒ. Dalam V-Fold Cross Validation ada V pohon klasifikasi tambahan yang dibuat bersamaan dengan pohon klasifikasi utama yang menggunakan ℒ. Ke-V pohon klasifikasi tambahan tersebut dibuat dengan learning sample ℒ (𝑣) . Dimulai dengan (𝑣)
membuat V maksimal tree , 𝑇𝑚𝑎𝑥 , 𝑣 = 1, 2, ⋯ , 𝑉 seperti halnya 𝑇𝑚𝑎𝑥 . Untuk setiap nilai complexity parameter atau node complexity 𝛼, dibuat 𝑇(𝛼) , 𝑇 (𝑣) 𝛼 dibuat oleh ℒ (𝑣) tanpa melibatkan ℒ𝑣 sisanya (1/10 dari ℒ) ℒ𝑣 ini digunakan sebagai test sample pada masing-masing 𝑇 (𝑣) 𝛼. Untuk setiap 𝑣, 𝑖, 𝑗 didefinisikan (𝑣)
𝑁𝑖𝑗 =
𝑁𝑖𝑗 𝑣
dengan
(𝑣) 𝑁𝑖𝑗 :
banyaknya objek anggota kelas j dalam ℒ (𝑣) yang diklasifikasikan sebagai kelas i oleh 𝑇 (𝑣) 𝛼.
𝑁𝑖𝑗 ∶ jumlah keseluruhan dari objek-objek kelas j yang diklasifikasikan sebagai kelas i.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 27
Oleh karena setiap objek muncul sekali dan hanya sekali ℒ (𝑣) maka jumlah keseluruhan objek kelas j di dalam seluruh test sample adalah 𝑁𝑗 sama dengan banyaknya objek kelas j dalam ℒ, 𝑁𝑖𝑗 𝑁𝑗
𝑄 𝑐𝑣 𝑖|𝑗 = 𝑅 𝑐𝑣 𝑗 =
𝑖
𝑅 𝑐𝑣 𝑇(𝛼) = Jika probabilitas prior diestimasi oleh 𝜋𝑗 = 𝑅 𝑐𝑣 𝑇(𝛼) =
𝑁𝑗 𝑁
1 𝑁
𝐶(𝑖|𝑗)𝑄 𝑐𝑣 𝑖|𝑗
𝑖𝑅
𝑐𝑣
(𝑗)𝜋𝑗 .
, maka menjadi
𝑖
𝐶(𝑖|𝑗) 𝑁𝑖𝑗 .
Untuk memilih pohon klasifikasi yang optimum dari 𝑇𝑘 , misal pohon klasifikasi yang optimum itu adalah 𝑇𝑘0 maka 𝑅 𝑐𝑣 𝑇𝑘0 = min 𝑅 𝑐𝑣 𝑇𝑘 . 𝑘
2.1.8
Predictive Accuracy
Konsep misclassification yang telah dijelaskan pada bagian terdahulu, membawa kepada konsep yang lebih penting lagi dalam membangun sebuah pohon klasifikasi dengan menggunakan algoritma CART ini. Predictive accuracy merupakan metode yang digunakan dalam CART untuk menguji tingkat keakurasian atau kehandalan (validitas) dari pohon klasifikasi yang terbentuk dalam melakukan tugas prediksinya yaitu untuk mengalokasikan objek-objek baru ke dalam kelas-kelas tertentu. Algoritma CART tidak menggunakan covariates-nya terhadap probabilitas distribusi tertentu, sehingga tidak dimungkinkan untuk melakukan uji-uji hipotesis. Metode yang digunakan untuk menguji tingkat keakurasian ini yaitu dengan cara menguji langsung pohon klasifikasi yang terbentuk terhadap sekumpulan data yang objek-objeknya sudah diketahui kelasnya masing-masing. Selanjutnya hitunglah commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 28
proporsi banyaknya objek yang mengalami kesalahan klasifikasi (misclassification). Semakin kecil proporsi misclassification yang terjadi, semakin akurat pohon klasifikasi yang terbentuk dalam melakukan prediksi. Begitu juga sebaliknya, semakin besar proporsi misclassification semakin tidak akurat pohon klasifikasi yang terbentuk dalam melakukan prediksinya. Proporsi misclassification yang sebenarnya (populasi) adalah 𝑅 ∗ 𝑑 = 𝑃(𝑑(𝑋𝑛 ) ≠ 𝑗) dengan 𝑑 𝑥𝑛 ∶ fungsi klasifikasi atau aturan klasifikasi (classification rules) dari pohon klasifikasi yang terbentuk dengan menggunakan algoritma CART. Objek a termasuk dalam kelas j jika 𝑥𝑎 ∈ 𝜒 maka 𝑑 𝑥𝑎 = 𝑗. Breiman, et al [1] memperkenalkan tiga prosedur dalam menguji tingkat keakurasian pohon klasifikasi yang terbentuk ini. 1. Resubstitition Estimate, dinotasikan dengan 𝑅 𝑑 . Konsep resubstitution estimate yang sudah diperkenalkan pada bagian terdahulu lebih menekankan pada sebuah pohon klasifikasi masih dalam proses pembuatan. Sedangkan konsep resubstitution estimate pada bagian ini lebih menekankan pada saat pohon klasifikasi telah terbentuk, 1 𝑅 𝑑 = 𝑁
𝑁
𝑋 𝑑 𝑥𝑛 ≠ 𝑗𝑛 . 𝑛=1
Cara kerja : 1. Buat pohon klasifikasi dari learning sample ℒ dengan aturan klasifikasi yang terbentuk 𝑑 𝑥𝑛 . 2. Operasikan 𝑑 𝑥𝑛 pada learning sample ℒ. 3. Hitung proporsi banyaknya objek yang salah terklasifikasikan (misclassified). 4. Nilai proporsi misclassification ini adalah nilai 𝑅 𝑑 sebagai estimator bagi 𝑅∗ 𝑑 . commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 29
2. Test Sample Estimate, dinotasikan dengan 𝑅 𝑡𝑠 𝑑 dan digunakan apabila ukuran sampel besar, 𝑅
𝑡𝑠
1 𝑑 = 𝑁2
𝑁
𝑋 𝑑 𝑥𝑛 ≠ 𝑗𝑛 . (𝑥 𝑛 ,𝑗 𝑛 )∈ℒ2
Cara kerja : 1. Bagi learning sample ℒ menjadi 2 bagian yaitu ℒ1 dan ℒ2 . ℒ1 dan ℒ2 tidak perlu sama. Sebagai contoh : 2/3 dari ℒ dipilih secara acak sebagai ℒ1 (sebanyak 𝑁1 ) dan 1/3 sisanya dipilih secara acak sebagai ℒ2 (sebanyak 𝑁2 ). 2. Gunakan ℒ1 untuk membuat pohon klasifikasi dengan aturan klasifikasi yang terbentuk yaitu 𝑑 𝑥𝑛 . 3. Operasikan 𝑑 𝑥𝑛 pada ℒ2 . 4. Hitung proporsi banyaknya objek pada ℒ2 yang salah terklasifikasikan (misclassified). 5. Nilai proporsi ini adalah nilai 𝑅 𝑡𝑠 𝑑 sebagai estimator bagi 𝑅 ∗ 𝑑 . 3. V-Fold Cross Validation, dinotasikan dengan 𝑅 𝐶𝑉 𝑑 dan digunakan apabila ukuran sampel kecil. Cara kerja : 1. Bagi learning sample ℒ ke dalam V bagian observasi yang sama banyak : ℒ1 , ℒ2 , ⋯ , ℒ𝑉 sebagai subsampel. 2. Buat pohon klasifikasi dengan menggunakan V-1 subsampel, sehingga terbentuk aturan klasifikasi 𝑑 𝑥𝑛 . Subsampel yang tersisa (ℒ𝑉 ) digunakan sebagai test sample. 3. Operasikan 𝑑 𝑥𝑛 pada subsampel yang tersisa (ℒ𝑉 ) sehingga diperoleh nilai 𝑅 𝑡𝑠 𝑑 𝑉 , 𝑅 𝑡𝑠 𝑑 𝑉 =
1 𝑁𝑉
𝑋 𝑑 (𝑥 𝑛 ,𝑗 𝑛 )∈ℒ 𝑉
commit to user
𝑉
𝑥𝑛 ≠ 𝑗𝑛 .
perpustakaan.uns.ac.id
digilib.uns.ac.id 30
4. Ulangi langkah 2 dan 3 dengan menggunakan semua subsampel untuk membuat pohon klasifikasi kedua kecuali subsampel ℒ𝑉−1 . ℒ𝑉−1 sekarang menjadi test sample dan diperoleh 𝑅 𝑡𝑠 𝑑 𝑉−1 . Proses ini diulang terus sampai tiap-tiap subsample digunakan sebagai test sample. 5. Hitung 𝑅 𝐶𝑉 𝑑 𝑅
𝐶𝑉
1 𝑑 = 𝑉
𝑉
𝑅 𝑡𝑠 𝑑 (𝑉) 𝑉=1
𝑅 𝐶𝑉 𝑑 ini digunakan sebagai estimator bagi 𝑅 ∗ 𝑑 . Metode resubstitution estimate merupakan metode yang paling lemah. Hal ini dikarenakan test sample yang digunakan adalah learning sample yang digunakan untuk membuat pohon klasifikasi itu sendiri sehingga menyebabkan nilai proporsi misclassification yang terbentuk 𝑅 𝑑 selalu rendah (underestimate). Dalam penelitian ini digunakan metode Test Sample Estimate dalam menguji tingkat keakurasian pohon klasifikasi yang terbentuk karena jumlah sample yang digunakan besar.
2.1.9
Interpretasi Pohon Klasifikasi
Interpretasi dari pohon klasifikasi yang telah terbentuk disajikan dalam suatu aturan hubungan (association rules) yang disebut dengan classification rules. Classification rules adalah aturan pengklasifikasian yang berbentuk if… then… (jika…maka…). Pada contoh pohon klasifikasi berikut, aturan klasifikasi yang terbentuk adalah
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 31
N=150 HR=85 LR=65
Penghasilan ≤ 1.250
Penghasilan >1.250
N=150 HR=60
Low Risk
LR=40
Umur > 30
Umur ≤ 30
N=60
High Risk
HR=20 LR=40
Total asset >20.000
Total asset ≤ 20.000
High Risk
Low Risk
Gambar 4.7. Contoh Pohon Klasifikasi CART 1. jika penghasilan > 1.250 maka kelas Low Risk, 2. jika penghasilan ≤ 1.250 dan umur ≤ 30 maka kelas High Risk, 3. jika penghasilan ≤ 1.250 dan umur > 30 dan total asset > 20.000 maka kelas Low Risk,
4. jika penghasilan ≤ 1.250 dan umur >30 dan total asset ≤ 20.000 maka kelas High Risk.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 32
2.2 Kerangka Pemikiran
Dengan mengacu pada tinjauan pustaka di atas dapat disusun suatu kerangka pemikiran yang mendasari penulisan skripsi ini. Dalam CART variabel dependen dapat bertipe kategorik (nominal atau ordinal) dan bertipe kontinu atau numerik (interval atau rasio), untuk variabel dependen yang bertipe kategorik (nominal atau ordinal) digunakan CART yang menghasilkan classification trees (pohon klasifikasi), dan
dengan
pohon
klasifikasi
tersebut
dapat
mengklasifikasikan
atau
mengelompokkan data nasabah AJB Bumiputera 1912 Surakarta sehingga dapat dicari pola status nasabah dalam pengambilan keputusan untuk menentukan calon nasabah di masa yang akan datang.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB III METODE PENELITIAN
3.1
Sumber Data
Dalam penelitian ini, data yang digunakan adalah data sekunder yang diambil dari data “Polis Lapse” periode 1 Januari 2010 – 1 Desember 2010 dari perusahaan asuransi AJB Bumiputera 1912 Surakarta Kantor Cabang Solo Gladag. Penelitian pada skripsi ini menggunakan data sebanyak 742 dengan variabel dependennya adalah nasabah dengan kategori status pembayaran tidak lancar dan lancar, sedangkan variabel independennya yaitu jenis kelamin, cara bayar, jangka waktu asuransi, premi dasar, penghasilan, status, mata uang dan macam asuransi. Berdasarkan data yang diperoleh, dilakukan pembuatan pohon klasifikasi dengan algoritma CART menggunakan bantuan Software Salford Predictive Miner CART Pro Ex 6.0. Pada pohon klasifikasi, data nasabah dengan status pembayaran lancar dan tidak lancar dibagi menjadi dua kelompok data yaitu data learning dan data testing. Karena tidak ada aturan khusus mengenai pembagian proporsi antara data learning dan data testing maka pada penelitian ini dilakukan tiga kombinasi proporsi data learning dan data testing yaitu: (1) pembagian data learning dan data testing dengan proporsi data learning > data testing (70%: 30%), (2) pembagian data learning dan data testing dengan proporsi data learning = data testing (50% : 50%), (3) pembagian data learning dan data testing dengan proporsi data learning < data testing (40% : 60%). Masing-masing kombinasi data dihitung ketepatan klasifikasi untuk data testing. Selanjutnya dipilih satu kombinasi proporsi data learning dan data testing yang memiliki ketepatan klasifikasi data testing terbesar untuk analisis selanjutnya. Ketepatan klasifikasi pada data testing dijadikan dasar karena dapat menggambarkan kebaikan model pohon klasifikasi yang dibentuk untuk mengklasifikasikan data baru.
commit to user 33
perpustakaan.uns.ac.id
digilib.uns.ac.id 34
3.2
Metode Analisis Data
Penelitian ini dilaksanakan dengan metode studi kasus, yaitu dilakukan dengan menerapkan teori untuk menganalisis data. Berikut diberikan langkah-langkah yang dilakukan dalam penelitian ini. 1.
Mengumpulkan data dengan mengambil data sekunder dari AJB Bumiputera 1912 Surakarta yaitu data “Polis Lapse” periode 1 Januari 2010 – 1 Desember 2010 dari perusahaan asuransi AJB Bumiputera 1912 Surakarta Kantor Cabang Solo Gladag.
2.
Menentukan variabel dependen dan variabel independen dalam analisis. Variabel dependennya adalah nasabah dengan kategori tidak lancar dan lancar sedangkan variabel independennya meliputi adalah
jenis kelamin, cara
pembayaran premi (Cara Bayar), jangka waktu asuransi, premi dasar, penghasilan, status, jenis mata uang (mata uang), macam asuransi. 3.
Melakukan pembuatan pohon klasifikasi dengan algoritma CART dengan menggunakan Software Salford Predictive Miner CART Pro Ex 6.0. dengan tahap-tahap sebagai berikut a.
Tahap I : Pembentukan atau pembuatan pohon Langkah 1 : proses splitting nodes Memilih variabel terbaik dengan nilai improvement atau ∆𝑖 𝑠, 𝑡 tertinggi sebagai kriteria dalam memilih variabel yang digunakan untuk memecah sebuah node. Langkah 2 : proses class assignment. Pemberian label kelas pada node-node yang telah terbentuk dimana kelas yang diidentifikasikan pada node t adalah kelas yang mempunyai probabilitas paling tinggi daripada kelas lainnya.
b.
Tahap II : Proses penghentian pembuatan atau pembentukan pohon klasifikasi (stopping the trees building process).
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 35
Proses splitting node akan berenti karena pada ujung pohon klasifikasi terdapat terminal node dimana anggotanya terdapat pada kelas yang sama. c.
Tahap III : Pruning the tree yaitu proses pemangkasan atau pemotongan 𝑇𝑚𝑎𝑥 menjadi pohon yang lebih kecil (T). Proses pemangkasan pohon akan terjadi apabila dua child node dan parent node memenuhi persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿 ), dimana 𝑅 𝑡 adalah parent node, 𝑅 𝑡𝑅 adalah right child node, dan 𝑅(𝑡𝐿 ) adalah left child node.
d.
Tahap IV : Proses optimal tree selection yaitu pemilihan atau penentuan pohon klasifikasi yang optimal. Pemilihan pohon klasifikasi optimal berdasarkan pada subtree yang mempunyai nilai test set relative cost terkecil.
4.
Menguji tingkat keakuratan pohon dalam mengelompokkan data learning maupun data testing selanjutnya memilih pohon yang menghasilkan tingkat akurasi pohon optimal tertinggi .
5.
Menginterpretasikan hasil pohon klasifikasi algoritma CART dengan tingkat akurasi pohon optimal tertinggi dengan data testing sebagai berikut a.
Setiap parent node akan membentuk sekelompok child node dibawahnya yang akhirnya akan terbentuk segmen-segmen.
b.
Kemudian segmen-segmen tersebut diinterpretasi berdasarkan variabelvariabel yang membangunnya.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB IV PEMBAHASAN 4.1.
Deskripsi data
Data yang digunakan dalam pembuatan pohon klasifikasi dengan metode CART adalah data “Polis Lapse” periode 1 Januari 2010 – 1 Desember 2010 dari perusahaan asuransi AJB Bumiputera 1912 Surakarta Kantor Cabang Solo Gladag yang terdapat dalam Lampiran 1. Jumlah data yang digunakan sebanyak 742 buah data, terdiri dari 8 variabel independen (x) dan 1 variabel dependen (y). Tabel 4.1. Variabel Independen dan Variabel Dependen Variabel Nama y Status Pembayaran
Tipe Data Kategorik
x1
Jenis Kelamin
Kategorik
x2
Cara Bayar
Kategorik
x3 x4 x5 x6
Jangka Waktu Asuransi Premi Dasar Penghasilan Status
Kontinu Kontinu Kontinu Kategorik
x7
Mata Uang
Kategorik
x8
Macam Asuransi
Kategorik
commit to user 36
Pelabelan 1 : Tidak Lancar 2 : Lancar 1 : Laki-laki 2 : Perempuan 1 : Bulanan 2 : Triwulanan 3 : Setengah Tahunan 4 : Tahunan 1 : Janda/duda 2 : Kawin 3 : Belum Kawin 1 : Rupiah 2 : Dolar 1 : Mitra Prima 2 : Mitra Pelangi 3 : Ekawaktu Ideal 4 : Mitra Beasiswa Berencana 5 : Mitra Melati 6 : Mitra Cerdas 7 : Mitra Sehat 8 : Mitra Guru
perpustakaan.uns.ac.id
digilib.uns.ac.id 37
Variabel dependen yang digunakan terbagi menjadi dua kelas yaitu kelas tidak lancar dan kelas lancar. Data ini diolah dengan menggunakan paket software CART Pro Ex 6.0 produk dari Salford Systems (http://www.salford-systems.com). Ada tiga kondisi yang digunakan untuk membuat pohon klasifikasi dengan menggunakan algoritma CART. 1. Kondisi pertama adalah pembagian data menjadi dua bagian yaitu data learning dan data testing dengan proporsi data learning > data testing (70%:30%). 2. Kondisi kedua adalah pembagian data menjadi dua bagian yaitu data learning dan data testing dengan proporsi data learning = data testing (50%:50%). 3. Kondisi ketiga pembagian data menjadi dua bagian yaitu data learning dan data testing dengan proporsi data learning < data testing (40%:60%).
4.2.
Hasil Analisis CART
4.2.1. Pembentukan Pohon Klasifikasi Kondisi Pertama 1. Proses Splitting Node Pada kondisi pertama pembagian data menjadi dua bagian (data learning dan data testing) dengan proporsi 70%:30%. Dengan demikian data learning berjumlah 534 buah data, sedangkan data testing berjumlah 208 buah data. Sebelum dilakukan proses splitting node, terlebih dahulu memilih variabel pemilah terbaik dari kedelapan variabel independen. Pemilahan variabel berdasarkan kriteria goodness of split. Suatu split s akan digunakan untuk memecah node t menjadi dua buah node yaitu node 𝑡𝑅 dan node 𝑡𝐿 jika s memaksimalkan nilai ∆𝑖 𝑠 ∗ , 𝑡 = max𝑠 ∆𝑖 𝑠, 𝑡 , dimana ∆𝑖 𝑠 ∗ , 𝑡 adalah nilai yang paling maksimal/tertinggi dari ∆𝑖 𝑠, 𝑡 . Root node dipecah dengan kriteria pemecahan Cara Bayar adalah dengan cara Triwulanan, Setengah commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 38
Tahunan, dan Tahunan. Variabel Cara Bayar terpilih karena nilai improvement yaitu ∆𝑖 𝑠, 𝑡 dari variabel Cara Bayar tertinggi dari competitor yang lain. Hal ini dapat dilihat pada Tabel 4.2. Tabel 4.2. Kriteria Pemilahan Terbaik Root Node Kondisi Pertama Main Splitter Improvement = 0.12801 Competitor
Main
Cara Bayar
Split
Triwulanan,
Improvement
N
N
N
Left
Right
Missing
0.12801
415
119
0
0.12533
416
118
0
Setengah Tahunan, Tahunan 1
Macam
Mitra Prima,
Asuransi
Mitra Pelangi, Ekawaktu Ideal, Mitra Beasiswa Berencana, Mitra Melati, Mitra Cerdas, Mitra Sehat
2
Penghasilan
8000040
0.10874
120
414
0
3
Premi Dasar
100000.50
0.10874
120
414
0
4
Status
Kawin
0.04960
258
276
0
5
Jangka
9.5
0.02272
140
394
0
Laki-laki
0.00063
237
297
0
Dolar
0.00023
1
533
0
Waktu Asuransi 6
Jenis Kelamin
7
Mata Uang
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 39
Setelah terbentuk dan terpilih kriteria pemilihan terbaik, maka node utama yang berisi 534 objek data dipilah menjadi dua buah terminal nodes. Terminal node 1 terbentuk akibat kriteria variabel Cara Bayar adalah triwulanan, setengah tahunan, dan tahunan. Terminal node 2 terbentuk akibat kriteria variabel Cara Bayar adalah bulanan. Proses pemilahan dapat dilihat pada Gambar 4.1. Proses serupa terus berjalan pada node-node lainnya, hingga tersisa satu objek saja yang berada dalam node terakhir atau semua objek yang berada dalam sebuah node merupakan anggota dari kelas yang sama (homogen). Node 1 Class = Lancar CARA_BAYAR = (Triw ulanan,Setengah Tahunan, Tahunan) Class Cases % Tidak Lancar 130 24.3 Lancar 404 75.7 W = 534.00 N = 534
CARA_BAYAR = (Triw ulanan...)
CARA_BAYAR = (Bulanan)
Terminal Node 1 Class = Lancar Class Cases % Tidak Lancar 45 10.8 Lancar 370 89.2 W = 415.00 N = 415
Terminal Node 2 Class = Tidak Lancar Class Cases % Tidak Lancar 85 71.4 Lancar 34 28.6 W = 119.00 N = 119
Gambar 4.1. Pemilahan Root Node Kondisi Pertama 2. Pelabelan Kelas Pada bagian ini adalah pemberian label kelas pada node-node yang telah terbentuk. Prosedur pemberian label kelas berdasarkan Definisi 2.14 class assignment rule yaitu jika 𝑝 𝑗|𝑡 = max𝑖 𝑝 𝑖|𝑡 𝑚𝑎𝑘𝑎 𝑗 ∗ 𝑡 = 𝑗 , dimana 𝑗 ∗ 𝑡 adalah kelas yang diidentifikasikan pada node t. Sebagai contoh, pada Gambar 4.1 130 = 0.243 534 404 𝑃 lancar|𝑡 = = 0.757 534
𝑃 tidak lancar|𝑡 =
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 40
sehingga root node diberi label kelas lancar, karena peluang kelas lancar lebih besar daripada peluang kelas lainnya. Proses pelabelan kelas ini berlaku pada semua node terutama terminal node, karena terminal node adalah node yang sangat penting dalam memprediksi suatu objek pada kelas tertentu jika objek berada pada terminal node tersebut. 3. Proses Penghentian Pemecahan Proses splitting node yang berulang-ulang akan berhenti dan menghasilkan pohon maksimal yang dapat dilihat pada Gambar 4.3. Proses splitting node akan berhenti karena pada ujung pohon klasifikasi terdapat terminal node dimana anggotanya terdapat pada kelas yang sama. Hal ini terlihat pada terminal node 46 dan 47 dalam Gambar 4.2. Pohon maksimal (Gambar 4.3.) untuk kondisi pertama mempunyai 46 nonterminal nodes dan 47 terminal nodes. Terminal Node 47 Class = Tidak Lancar Class Cases % Tidak Lancar 4 100.0 Lancar 0 0.0 W = 4.00 N=4
Terminal Node 46 Class = Lancar Class Cases % Tidak Lancar 0 0.0 Lancar 1 100.0 W = 1.00 N=1
Gambar 4.2. Terminal node 46 dan 47 kondisi pertama
= Nonterminal nodes
dan
= Terminal nodes
Gambar 4.3. Pohon Klasifikasi Maksimal Kondisi Pertama
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 41
4. Proses Pemangkasan Pohon Proses pemangkasan pohon dapat dilihat pada Lampiran 2. Proses pemangkasan pohon klasifikasi maksimal menghasilkan 9 subtree. Proses pemangkasan pohon klasifikasi dimulai dengan mengambil 𝑡𝑅 yang merupakan right child node dan 𝑡𝐿 yang merupakan left child node dari 𝑇𝑚𝑎𝑥 yang dihasilkan dari parent node t. Jika diperoleh dua child node dan parent node yang memenuhi persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿 ), maka child node 𝑡𝑅 dan 𝑡𝐿 dipangkas. Proses tersebut diulangi sampai tidak ada lagi pemangkasan yang mungkin terjadi. Dan diperoleh urutan sebagai berikut 𝑇1 , 𝑇2 , ⋯ , 𝑡1 , 𝑇1 > 𝑇2 > ⋯ > {𝑡1 },
Gambar 4.4. Pohon klasifikasi kondisi pertama yang akan dipangkas Pada Gambar 4.4 terdapat node yang akan dipangkas yaitu node 36 . Node tersebut mengalami pemangkasan karena parent node dan child node memenuhi persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿 ). Node 36 Class = Tidak Lancar JANGKA_WAKTU_ASURANSI <= 5.50 Class Cases % Tidak Lancar 49 74.2 Lancar 17 25.8 W = 66.00 N = 66
JANGKA_WAKTU_ASURANSI <= 5.50
JANGKA_WAKTU_ASURANSI > 5.50
Terminal Node 33 Class = Tidak Lancar Class Cases % Tidak Lancar 43 72.9 Lancar 16 27.1 W = 59.00 N = 59
Terminal Node 34 Class = Tidak Lancar Class Cases % Tidak Lancar 6 85.7 Lancar 1 14.3 W = 7.00 N=7
Gambar 4.5. Node 36 pada kondisi pertama yang akan dipangkas commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 42
Proses pemangkasan ini dapat dilihat dari perhitungan di bawah ini Parent Node (Node 36) : Nilai 𝑅 𝑡 = 𝑟 𝑡 . 𝑃(𝑡) dengan 𝑟 𝑡 = 1 − max𝑗 𝑃(𝑗|𝑡) dan 𝑃(𝑗|𝑡) adalah peluang beberapa objek berada dalam node t. Dalam node 36 terdapat dua kelas yaitu kelas tidak lancar dan kelas lancar. Nilai probabilitas tiap kelas dalam node 36 adalah sebagai berikut: 49 = 0.742 66 17 𝑃 lancar|𝑛𝑜𝑑𝑒 36 = = 0.258 66
𝑃 tidak lancar|𝑛𝑜𝑑𝑒 36 =
sehingga dengan menggunakan rumus 𝑟 𝑡 = 1 − max𝑗 𝑃(𝑗|𝑡), maka diperoleh 𝑟 𝑛𝑜𝑑𝑒 36 = 1 − max 𝑃 𝑗|𝑡 𝑗
= 1 − 0.742 = 0.258 . Nilai probabilitas objek yang berada dalam node 36 adalah 𝑃 𝑛𝑜𝑑𝑒 36 =
𝑁 𝑛𝑜𝑑𝑒 36 66 = = 0.1236 . 𝑁 534
Oleh karena itu, 𝑅 𝑛𝑜𝑑𝑒 36 = 𝑟 𝑛𝑜𝑑𝑒 36 . 𝑃 𝑛𝑜𝑑𝑒 36 = 0.258 × 0.1236 = 3.18 × 10−2 . Selanjutnya pada child node , yaitu terminal node 33 dan terminal node 34 : Dengan cara perhitungan yang sama maka, terminal node 33 memiliki nilai max𝑗 𝑃(𝑗|𝑡) sebesar 0.729, sehingga nilai 𝑟 𝑡𝐿 = 1 − max𝑗 𝑃(𝑗|𝑡) = 1 − 0.729 = 0.271. 𝑃(𝑡𝐿 ) adalah peluang banyaknya objek pada anak node sebelah kiri (terminal node 33), sehingga commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 43
𝑃 𝑡𝐿 =
𝑁 𝑡𝐿 59 = = 0.11 𝑁 534
oleh karena itu, 𝑅 𝑡𝐿 = 𝑟 𝑡𝐿 . 𝑃 𝑡𝐿 = 0.271 × 0.11 = 2.99 × 10−2 . Terminal node 34 memiliki nilai max𝑗 𝑃(𝑗|𝑡) sebesar 0.857, maka nilai 𝑟 𝑡𝑅 = 1 − max 𝑃(𝑗|𝑡) = 1 − 0.857 = 0.143 𝑗
𝑃(𝑡𝑅 ) adalah peluang banyaknya objek pada anak node sebelah kanan (terminal node 34), maka nilai 𝑃 𝑡𝑅 =
𝑁 𝑡𝑅 7 = = 1.31 × 10−2 𝑁 534
sehingga 𝑅 𝑡𝑅 = 𝑟 𝑡𝑅 . 𝑃 𝑡𝑅 = 0.143 × 1.31 × 10−2 = 1.87 × 10−3 . Dengan demikian, persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿 ) 3.18 × 10−2 = 1.87 × 10−3 + 2.99 × 10−2 3.18 × 10−2 = 3.18 × 10−2 terpenuhi untuk node 36, sehingga dilakukan pemangkasan. 5. Pohon Klasifikasi Optimal Setelah dilakukan pemangkasan pohon, langkah selanjutnya pemilihan pohon klasifikasi optimal. Dari 9 subtree akan dipilih satu pohon klasifikasi dengan nilai penduga pengganti yang terkecil. Dalam mencari pohon klasifikasi optimal digunakan metode 1 𝑁 (2)
𝑖,𝑗
Test Sample Estimate yaitu 𝑅 𝑡𝑠 𝑇 =
(2)
𝐶(𝑖|𝑗)𝑁𝑖𝑗 , karena ukuran data yang besar. Nilai penduga pengganti
sample uji (test sample estimate) dari masing-masing subtree terlihat pada Tabel 4.3.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 44
Tabel 4.3. Tree Sequence Kondisi Pertama Tree
Terminal Nodes
Test Set Relative Cost
number
Resubstitution Relative Cost
1
47
0.74162 ± 0.10700
0.47403
2
35
0.74063 ± 0.10553
0.47426
3
32
0.75986 ± 0.10603
0.47441
4
26
0.75986 ± 0.10603
0.48979
5
19
0.78057± 0.10890
0.51241
6
17
0.76134 ± 0.10828
0.52003
7**
9
0.66272 ± 0.10144
0.55887
8
2
0.68097 ± 0.10023
0.60510
9
1
1.00000 ± 0.00000
1.00000
** Optimal
Pada Tabel 4.3. terlihat bahwa dari kesembilan subtree yang terbentuk, subtree nomor 7 dengan 9 terminal nodes adalah pohon klasifikasi optimal. Hal ini dikarenakan memenuhi kriteria nilai test set relative cost 𝑅 𝑡𝑠 𝑇𝑘0 = min𝑘 𝑅 𝑡𝑠 𝑇𝑘
yaitu subtree nomor 7 memiliki nilai paling kecil dari
kesembilan subtree yang lainnya. Pohon klasifikasi optimal dapat dilihat pada Lampiran 3. 6. Predictive Accuracy Pohon klasifikasi optimal yang telah terpilih tadi kemudian diuji tingkat keakuratannya dalam mengelompokkan data learning. Uji keakuratan pohon klasifikasi optimal pada kondisi pertama dengan menggunakan 𝑅
𝑡𝑠
1 𝑑 = 𝑁1 =
𝑁
𝑋 𝑑 𝑥𝑛 ≠ 𝑗𝑛 (𝑥 𝑛 ,𝑗 𝑛 )∈ℒ1
35 + 38 73 = = 0.1367 534 534
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 45
Dengan nilai 𝑅 𝑡𝑠 𝑑 = 0.1367, maka ketepatan klasifikasinya adalah 1 − 0.1367 = 0.8633 atau 86.33 %. Hasil dari klasifikasi pohon optimal dengan menggunakan data learning dapat dilihat pada Tabel 4.4. Tabel 4.4. Tingkat Akurasi Pohon Optimal Dengan Data Learning Kondisi Pertama Kelas Sebenarnya
Total Kelas
Persentase
Lancar
Tidak Lancar
Akurasi
N = 407
N = 127
Lancar
404
91.34
369
35
Tidak Lancar
130
70.77
38
92
Total
534
Rata-rata
81.05
Persentase
86.33
Keseluruhan Akurasi
Kemudian
pohon
optimal
diuji
keakuratannya
dengan
cara
mengklasifikasikan data testing untuk melihat kemampuan pohon klasifikasi optimal dalam mengklasifikasikan data baru. Persamaan yang digunakan pada data testing adalah 𝑅
𝑡𝑠
1 𝑑 = 𝑁2 =
𝑁
𝑋 𝑑 𝑥𝑛 ≠ 𝑗𝑛 (𝑥 𝑛 ,𝑗 𝑛 )∈ℒ2
18 + 16 34 = = 0.1634 208 208
Oleh karena itu ketepatan klasifikasinya adalah 1 − 0.1634 = 0.8365 atau 83.65%. Hasil dari klasifikasi pohon optimal dengan menggunakan data testing dapat dilihat pada Tabel 4.5.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 46
Tabel 4.5. Tingkat Akurasi Pohon Optimal Dengan Data Testing Kondisi Pertama Kelas Sebenarnya
Total Kelas
Persentase
Lancar
Tidak Lancar
Akurasi
N = 407
N = 127
Lancar
156
88.46
138
18
Tidak Lancar
52
69.23
16
36
Total
208
Rata-rata
78.85
Persentase
83.65
Keseluruhan Akurasi
4.2.2. Pembentukan Pohon Klasifikasi Kondisi Kedua 1. Proses Splitting Node Pada kondisi kedua pembagian data menjadi dua bagian (data learning dan data testing) dengan proporsi 50%:50%. Dengan demikian data learning berjumlah 382 buah data, sedangkan data testing berjumlah 360 buah data. Sebelum dilakukan proses splitting node, terlebih dahulu memilih variabel pemilah terbaik dari kedelapan variabel independen. Pemilahan variabel berdasarkan kriteria goodness of split. Suatu split s akan digunakan untuk memecah node t menjadi dua buah node yaitu node 𝑡𝑅 dan node 𝑡𝐿 jika s memaksimalkan nilai ∆𝑖 𝑠 ∗ , 𝑡 = max𝑠 ∆𝑖 𝑠, 𝑡 , dimana ∆𝑖 𝑠 ∗ , 𝑡 adalah nilai yang paling maksimal/tertinggi dari ∆𝑖 𝑠, 𝑡 . Root node dipecah dengan kriteria pemecahan Cara Bayar adalah dengan cara triwulanan, Setengah tahunan, dan Tahunan. Variabel Cara Bayar terpilih karena nilai improvement yaitu ∆𝑖 𝑠, 𝑡 dari variabel Cara Bayar tertinggi dari competitor yang lain. Hal ini dapat dilihat pada Tabel 4.6.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 47
Tabel 4.6. Kriteria Pemilahan Terbaik Root Node Kondisi Kedua Main Splitter Improvement = 0.15039 Competitor
Main
Cara Bayar
Split
Improvement
Triwulanan,
N
N
N
Left
Right
Missing
0.15039
297
85
0
0.14610
298
84
0
Setengah Tahunan, Tahunan 1
Macam
Ekawaktu
Asuransi
Ideal, Mitra Beasiswa Berencana, Mitra Melati, Mitra Cerdas, Mitra Sehat
2
Penghasilan
8000080
0.12346
85
297
0
3
Premi Dasar
100001
0.12346
85
297
0
4
Status
Kawin
0.05521
186
196
0
5
Jangka
9.5
0.02326
94
288
0
Laki-laki
0.00139
172
210
0
Waktu Asuransi 6
Jenis Kelamin
Setelah terbentuk dan terpilih kriteria pemilihan terbaik, maka node utama yang berisi 382 objek data dipilah menjadi dua buah terminal nodes. Terminal node 1 terbentuk akibat kriteria variabel Cara Bayar adalah commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 48
triwulanan, setengah tahunan dan tahunan. Terminal node 2 terbentuk akibat kriteria variabel Cara Bayar adalah bulanan. Proses pemilahan dapat dilihat pada Gambar
4.6. Proses serupa terus berjalan pada node-node lainnya,
hingga tersisa satu objek saja yang berada dalam node terakhir atau semua objek yang berada dalam sebuah node merupakan anggota dari kelas yang sama (homogen). Node 1 Class = Lancar CARA_BAYAR = (Triw ulanan,Setengah Tahunan, Tahunan) Class Cases % Tidak Lancar 86 22.5 Lancar 296 77.5 W = 382.00 N = 382
CARA_BAYAR = (Triw ulanan...)
CARA_BAYAR = (Bulanan)
Terminal Node 1 Class = Lancar Class Cases % Tidak Lancar 25 8.4 Lancar 272 91.6 W = 297.00 N = 297
Terminal Node 2 Class = Tidak Lancar Class Cases % Tidak Lancar 61 71.8 Lancar 24 28.2 W = 85.00 N = 85
Gambar 4.6. Pemilahan Root Node Kondisi Kedua 2. Pelabelan Kelas Pada bagian ini adalah pemberian label kelas pada node-node yang telah terbentuk. Prosedur pemberian label kelas berdasarkan Definisi 2.14 class assignment rule yaitu jika 𝑝 𝑗|𝑡 = max𝑖 𝑝 𝑖|𝑡 𝑚𝑎𝑘𝑎 𝑗 ∗ 𝑡 = 𝑗 , dimana 𝑗 ∗ 𝑡 adalah kelas yang diidentifikasikan pada node t . Sebagai contoh, pada Gambar 4.6 86 = 0.225 382 296 𝑃 lancar|𝑡 = = 0.775 382
𝑃 tidak lancar|𝑡 =
sehingga root node diberi label kelas lancar, karena peluang kelas lancar lebih besar daripada peluang kelas lainnya. Proses pelabelan kelas ini berlaku pada commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 49
semua node terutama terminal node, karena terminal node adalah node yang sangat penting dalam memprediksi suatu objek pada kelas tertentu jika objek berada pada terminal node tersebut. 3. Proses Penghentian Pemecahan Proses splitting node yang berulang-ulang akan berhenti dan menghasilkan pohon maksimal yang dapat dilihat pada Gambar 4.8. Proses splitting node akan berenti karena pada ujung pohon klasifikasi terdapat terminal node dimana anggotanya terdapat pada kelas yang sama. Hal ini terlihat pada terminal node 23 dan 24 dalam gambar 4.7. Pohon maksimal (Gambar 4.8.) untuk kondisi kedua mempunyai 23 nonterminal nodes dan 24 terminal nodes. Terminal Node 23 Class = Lancar Class Cases % Tidak Lancar 0 0.0 Lancar 1 100.0 W = 1.00 N=1
Terminal Node 24 Class = Tidak Lancar Class Cases % Tidak Lancar 4 100.0 Lancar 0 0.0 W = 4.00 N=4
Gambar 4.7. Terminal node 23 dan 24 kondisi kedua
= Nonterminal nodes
dan
= Terminal nodes
Gambar 4.8. Pohon Klasifikasi Maksimal Kondisi Kedua commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 50
4. Proses Pemangkasan Pohon (Tree Prunning Process) Proses pemangkasan pohon dapat dilihat pada Lampiran 4. Proses pemangkasan pohon klasifikasi maksimal menghasilkan 8 subtree. Proses pemangkasan pohon klasifikasi dimulai dengan mengambil 𝑡𝑅 yang merupakan right child node dan 𝑡𝐿 yang merupakan left child node dari 𝑇𝑚𝑎𝑥 yang dihasilkan dari parent node t. Jika diperoleh dua child node dan parent node yang memenuhi persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿 ), maka child node 𝑡𝑅 dan 𝑡𝐿 dipangkas. Proses tersebut diulangi sampai tidak ada lagi pemangkasan yang mungkin terjadi. Dan diperoleh urutan sebagai berikut 𝑇1 , 𝑇2 , ⋯ , 𝑡1 , 𝑇1 > 𝑇2 > ⋯ > {𝑡1 },
Gambar 4.9. Pohon klasifikasi kondisi kedua yang akan dipangkas Pada Gambar 4.9 terdapat node yang akan dipangkas yaitu node 8 . Node tersebut mengalami pemangkasan karena parent node dan child node memenuhi persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿 ). Node 8 Class = Lancar PREMI_DASAR <= 601567.50 Class Cases % Tidak Lancar 6 16.7 Lancar 30 83.3 W = 36.00 N = 36
PREMI_DASAR <= 601567.50
PREMI_DASAR > 601567.50
Node 9 Class = Lancar PREMI_DASAR <= 582620.00 Class Cases % Tidak Lancar 4 26.7 Lancar 11 73.3 W = 15.00 N = 15
Terminal Node 9 Class = Lancar Class Cases % Tidak Lancar 2 9.5 Lancar 19 90.5 W = 21.00 N = 21
PREMI_DASAR <= 582620.00
PREMI_DASAR > 582620.00
Terminal Node 7 Class = Lancar Class Cases % Tidak Lancar 2 16.7 Lancar 10 83.3 W = 12.00 N = 12
Terminal Node 8 Class = Tidak Lancar Class Cases % Tidak Lancar 2 66.7 Lancar 1 33.3 W = 3.00 N=3
Gambar 4.10. Node 8 pada kondisi kedua yang akan dipangkas commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 51
Proses pemangkasan ini dapat dilihat dari perhitungan di bawah ini Parent Node (Node 8) : Nilai 𝑅 𝑡 = 𝑟 𝑡 . 𝑃(𝑡) dengan 𝑟 𝑡 = 1 − max𝑗 𝑃(𝑗|𝑡) dan 𝑃(𝑗|𝑡) adalah peluang beberapa objek berada dalam node t. Dalam node 8 terdapat dua kelas yaitu kelas tidak lancar dan kelas lancar. Nilai probabilitas tiap kelas dalam node 8 adalah sebagai berikut: 6 = 0.167 36 30 𝑃 lancar|𝑛𝑜𝑑𝑒 8 = = 0.833 36
𝑃 tidak lancar|𝑛𝑜𝑑𝑒 8 =
sehingga dengan menggunakan rumus 𝑟 𝑡 = 1 − max𝑗 𝑃(𝑗|𝑡), maka diperoleh 𝑟 𝑛𝑜𝑑𝑒 8 = 1 − max 𝑃 𝑗|𝑡 𝑗
= 1 − 0.833 = 0.167 . Nilai probabilitas objek yang berada dalam node 8 adalah 𝑃 𝑛𝑜𝑑𝑒 8 =
𝑁 𝑛𝑜𝑑𝑒 8 36 = = 9.42 × 10−2 . 𝑁 382
oleh karena itu, 𝑅 𝑛𝑜𝑑𝑒 8 = 𝑟 𝑛𝑜𝑑𝑒 8 . 𝑃 𝑛𝑜𝑑𝑒 8 = 0.167 × 9.42 × 10−2 = 1.57 × 10−2 . Selanjutnya pada child node , yaitu node 9 dan terminal node 9 : Dengan cara perhitungan yang sama maka, node 9 memiliki nilai max𝑗 𝑃(𝑗|𝑡) sebesar 0.733, sehingga nilai 𝑟 𝑡𝐿 = 1 − max𝑗 𝑃(𝑗|𝑡) = 1 − 0.733 = 0.267. 𝑃(𝑡𝐿 ) adalah peluang banyaknya objek pada anak node sebelah kiri (node 9), sehingga nilai commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 52
𝑃 𝑡𝐿 =
𝑁 𝑡𝐿 15 = = 3.93 × 10−2 . 𝑁 382
Oleh karena itu, 𝑅 𝑡𝐿 = 𝑟 𝑡𝐿 . 𝑃 𝑡𝐿 = 0.267 × 3.93 × 10−2 = 1.05 × 10−2 . Terminal node 9 memiliki nilai max𝑗 𝑃(𝑗|𝑡) sebesar 0.905, sehingga nilai 𝑟 𝑡𝑅 = 1 − max𝑗 𝑃(𝑗|𝑡) = 1 − 0.905 = 0.095. 𝑃(𝑡𝑅 ) adalah peluang banyaknya objek pada anak node sebelah kanan (terminal node 9), sehingga nilai
𝑃 𝑡𝑅 =
𝑁 𝑡𝑅 21 = = 5.497 × 10−2 . 𝑁 382
Oleh karena itu, 𝑅 𝑡𝑅 = 𝑟 𝑡𝑅 . 𝑃 𝑡𝑅 = 0.095 × 5.497 × 10−2 = 5.22 × 10−3 . Dengan demikian persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿 ) 1.57 × 10−2 = 5.22 × 10−3 + 1.05 × 10−2 1.57 × 10−2 = 1.57 × 10−2 terpenuhi untuk node 8, sehingga dilakukan pemangkasan. 5. Pohon Klasifikasi Optimal Setelah dilakukan pemangkasan pohon, langkah selanjutnya pemilihan pohon klasifikasi optimal. Dari 8 subtree akan dipilih satu pohon klasifikasi dengan nilai penduga pengganti yang terkecil. Dalam mencari pohon klasifikasi optimal digunakan metode Test Sample Estimate yaitu 𝑅 𝑡𝑠 𝑇 = 1 𝑁 (2)
𝑖,𝑗
(2)
𝐶(𝑖|𝑗)𝑁𝑖𝑗 , karena ukuran data yang besar. Nilai penduga pengganti
sample uji (test sample estimate) dari masing-masing subtree terlihat pada Tabel 4.7.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 53
Tabel 4.7. Tree Sequence Kondisi Kedua Tree number
Terminal Nodes
Test Set Relative Cost
Resubstitution Relative Cost
1
24
0.94486 ± 0.08833
0.40857
2
20
0.94362 ± 0.08797
0.42143
3
18
0.93568 ± 0.08851
0.43183
4
14
0.86451 ± 0.08508
0.45508
5
12
0.84120 ± 0.08397
0.46794
6
8
0.83202 ± 0.08418
0.49666
7**
2
0.70928 ± 0.07548
0.54018
8
1
1.00000 ± 0.00000
1.00000
** Optimal
Pada Tabel 4.7. terlihat bahwa dari kedelapan subtree yang terbentuk, subtree nomor 7 dengan 2 terminal nodes adalah pohon klasifikasi optimal. Hal ini dikarenakan memenuhi kriteria nilai test set relative cost 𝑅 𝑡𝑠 𝑇𝑘0 = min𝑘 𝑅 𝑡𝑠 𝑇𝑘
yaitu subtree nomor 7 memiliki nilai paling kecil dari
kedelapan subtree yang lainnya. Pohon klasifikasi optimal dapat dilihat pada Lampiran 5. 6. Predictive Accuracy Pohon klasifikasi optimal yang telah terpilih tadi kemudian diuji tingkat keakuratannya dalam mengelompokkan data learning. Uji keakuratan pohon klasifikasi optimal pada kondisi pertama dengan menggunakan 𝑅
𝑡𝑠
1 𝑑 = 𝑁1 =
𝑁
𝑋 𝑑 𝑥𝑛 ≠ 𝑗𝑛 (𝑥 𝑛 ,𝑗 𝑛 )∈ℒ1
24 + 25 49 = = 0.128 382 382
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 54
Dengan nilai 𝑅 𝑡𝑠 𝑑 = 0.128, maka ketepatan klasifikasinya adalah 1 − 0.128 = 0.8717 atau 87.17%. Hasil dari klasifikasi pohon optimal dengan menggunakan data learning dapat dilihat pada Tabel 4.8 Tabel 4.8. Tingkat Akurasi Pohon Optimal Dengan Data Learning Kondisi Kedua Kelas Sebenarnya
Total Kelas
Persentase
Lancar
Tidak Lancar
Akurasi
N = 297
N = 85
Lancar
296
91.89
272
24
Tidak Lancar
86
70.93
25
61
Total
382
Rata-rata
81.41
Persentase
87.17
Keseluruhan Akurasi
Kemudian
pohon
optimal
diuji
keakuratannya
dengan
cara
mengklasifikasikan data testing untuk melihat kemampuan pohon klasifikasi optimal dalam mengklasifikasikan data baru. Persamaan yang digunakan pada data testing adalah 𝑅
𝑡𝑠
1 𝑑 = 𝑁2
=
𝑁
𝑋 𝑑 𝑥𝑛 ≠ 𝑗𝑛 (𝑥 𝑛 ,𝑗 𝑛 )∈ℒ2
26 + 39 65 = = 0.180 360 360
Oleh karena itu, ketepatan klasifikasinya adalah 1 − 0.180 = 0.8194 atau 81.94 %. Hasil dari klasifikasi pohon optimal dengan menggunakan data testing dapat dilihat pada Tabel 4.9.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 55
Tabel 4.9. Tingkat Akurasi Pohon Optimal Dengan Data Testing Kondisi Kedua Kelas Sebenarnya
Total Kelas
Persentase
Lancar
Tidak Lancar
Akurasi
N = 277
N = 83
Lancar
264
90.15
238
26
Tidak Lancar
96
59.38
39
57
Total
360
Rata-rata
74.76
Persentase
81.94
Keseluruhan Akurasi
4.2.3. Pembentukan Pohon Klasifikasi Kondisi Ketiga 1. Proses Splitting Node Pada kondisi ketiga pembagian data menjadi dua bagian
(data
learning dan data testing) dengan proporsi 40%:60%. Dengan demikian data learning berjumlah 308 buah data, sedangkan data testing berjumlah 434 buah data. Sebelum dilakukan proses splitting node, terlebih dahulu memilih variabel pemilah terbaik dari kedelapan variabel independen. Pemilahan variabel berdasarkan kriteria goodness of split. Suatu split s akan digunakan untuk memecah node t menjadi dua buah node yaitu node 𝑡𝑅 dan node 𝑡𝐿 jika s memaksimalkan nilai ∆𝑖 𝑠 ∗ , 𝑡 = max𝑠 ∆𝑖 𝑠, 𝑡 , dimana ∆𝑖 𝑠 ∗ , 𝑡 adalah nilai yang paling maksimal/tertinggi dari ∆𝑖 𝑠, 𝑡 . Root node dipecah dengan kriteria pemecahan Cara Bayar adalah dengan cara triwulanan, Setengah tahunan, dan Tahunan. Variabel Cara Bayar terpilih karena nilai improvement yaitu ∆𝑖 𝑠, 𝑡 dari variabel Cara Bayar tertinggi dari competitor yang lain. Hal ini dapat dilihat pada Tabel 4.10.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 56
Tabel 4.10. Kriteria Pemilahan Terbaik Root Node Kondisi Ketiga Main Splitter Improvement = 0.14753 Competitor
Main
Cara Bayar
Split
Improvement
Triwulanan,
N
N
N
Left
Right
Missing
0.14753
241
67
0
0.14238
242
66
0
Setengah Tahunan, Tahunan 1
Macam
Ekawaktu
Asuransi
Ideal, Mitra Beasiswa Berencana, Mitra Melati, Mitra Cerdas, Mitra Sehat
2
Penghasilan
8000080
0.12576
66
242
0
3
Premi Dasar
100001
0.12576
66
242
0
4
Status
Kawin
0.05114
150
158
0
5
Jangka Waktu
9.5
0.02861
80
288
0
Laki-laki
0.00044
144
164
0
Asuransi 6
Jenis Kelamin
Setelah terbentuk dan terpilih kriteria pemilihan terbaik, maka node utama yang berisi 308 objek data dipilah menjadi tiga buah terminal nodes. Terminal node 1 terbentuk akibat kriteria variabel Cara Bayar adalah commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 57
triwulanan, setengah tahunan dan tahunan. Terminal node 2 terbentuk akibat kriteria variabel Cara Bayar adalah bulanan. Proses pemilahan dapat dilihat pada Gambar 4.11. Proses serupa terus berjalan pada node-node lainnya, hingga tersisa satu objek saja yang berada dalam node terakhir atau semua objek yang berada dalam sebuah node merupakan anggota dari kelas yang sama (homogen). Node 1 Class = Lancar CARA_BAYAR = (Triw ulanan,Setengah Tahunan, Tahunan) Class Cases % Tidak Lancar 71 23.1 Lancar 237 76.9 W = 308.00 N = 308
CARA_BAYAR = (Triw ulanan...)
CARA_BAYAR = (Bulanan)
Terminal Node 1 Class = Lancar Class Cases % Tidak Lancar 22 9.1 Lancar 219 90.9 W = 241.00 N = 241
Terminal Node 2 Class = Tidak Lancar Class Cases % Tidak Lancar 49 73.1 Lancar 18 26.9 W = 67.00 N = 67
Gambar 4.11. Pemilahan Root Node Kondisi Ketiga 2. Pelabelan Kelas Pada bagian ini adalah pemberian label kelas pada node-node yang telah terbentuk. Prosedur pemberian label kelas berdasarkan Definisi 2.14 class assignment rule yaitu jika 𝑝 𝑗|𝑡 = max𝑖 𝑝 𝑖|𝑡 𝑚𝑎𝑘𝑎 𝑗 ∗ 𝑡 = 𝑗 , dimana 𝑗 ∗ 𝑡 adalah kelas yang diidentifikasikan pada node t . Sebagai contoh, pada Gambar 4.11 71 = 0.231 308 237 𝑃 lancar|𝑡 = = 0.769 308
𝑃 tidak lancar|𝑡 =
sehingga root node diberi label kelas lancar, karena peluang kelas lancar lebih besar daripada peluang kelas lainnya. Proses pelabelan kelas ini berlaku pada semua node terutama terminal node, karena terminal node adalah node yang commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 58
sangat penting dalam memprediksi suatu objek pada kelas tertentu jika objek berada pada terminal node tersebut. 3. Proses Penghentian Pemecahan Proses splitting node yang berulang-ulang akan berhenti dan menghasilkan pohon maksimal yang dapat dilihat pada Gambar 4.13. Proses splitting node akan berenti karena pada ujung pohon klasifikasi terdapat terminal node dimana anggotanya terdapat pada kelas yang sama. Hal ini terlihat pada terminal node 10 dan 11 dalam Gambar 4.12. Pohon maksimal (Gambar 4.13.) untuk kondisi ketiga mempunyai 18 nonterminal nodes dan 19 terminal nodes. Terminal Node 10 Class = Lancar Class Cases % Tidak Lancar 0 0.0 Lancar 6 100.0 W = 6.00 N=6
Terminal Node 11 Class = Tidak Lancar Class Cases % Tidak Lancar 2 100.0 Lancar 0 0.0 W = 2.00 N=2
Gambar 4.12. Terminal node 10 dan 11 kondisi ketiga
= Nonterminal nodes
dan
= Terminal nodes
Gambar 4.13. Pohon Klasifikasi Maksimal Kondisi Ketiga 4. Proses Pemangkasan Pohon (Tree Prunning Process) Proses pemangkasan pohon dapat dilihat pada Lampiran 6. Proses pemangkasan pohon klasifikasi maksimal menghasilkan 6 subtree. Proses pemangkasan pohon klasifikasi dimulai dengan mengambil 𝑡𝑅 yang commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 59
merupakan right child node dan 𝑡𝐿 yang merupakan left child node dari 𝑇𝑚𝑎𝑥 yang dihasilkan dari parent node t. Jika diperoleh dua child node dan parent node yang memenuhi persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿 ), maka child node 𝑡𝑅 dan 𝑡𝐿 dipangkas. Proses tersebut diulangi sampai tidak ada lagi pemangkasan yang mungkin terjadi. Dan diperoleh urutan sebagai berikut 𝑇1 , 𝑇2 , ⋯ , 𝑡1 , 𝑇1 > 𝑇2 > ⋯ > {𝑡1 },
Gambar 4.14. Pohon klasifikasi kondisi ketiga yang akan dipangkas Pada gambar 4.14 terdapat node yang akan dipangkas yaitu node 9 . Node tersebut mengalami pemangkasan karena parent node dan child node memenuhi persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿 ). Node 9 Class = Lancar PREMI_DASAR <= 601567.50 Class Cases % Tidak Lancar 4 13.8 Lancar 25 86.2 W = 29.00 N = 29
PREMI_DASAR <= 601567.50
PREMI_DASAR > 601567.50
Node 10 Class = Lancar PREMI_DASAR <= 582620.00 Class Cases % Tidak Lancar 3 23.1 Lancar 10 76.9 W = 13.00 N = 13
Terminal Node 10 Class = Lancar Class Cases % Tidak Lancar 1 6.3 Lancar 15 93.8 W = 16.00 N = 16
PREMI_DASAR <= 582620.00
PREMI_DASAR > 582620.00
Terminal Node 8 Class = Lancar Class Cases % Tidak Lancar 1 10.0 Lancar 9 90.0 W = 10.00 N = 10
Terminal Node 9 Class = Tidak Lancar Class Cases % Tidak Lancar 2 66.7 Lancar 1 33.3 W = 3.00 N=3
Gambar 4.15. Node 9 pada kondisi ketiga yang akan dipangkas commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 60
Proses pemangkasan ini dapat dilihat dari perhitungan di bawah ini Parent Node (Node 9) : Nilai 𝑅 𝑡 = 𝑟 𝑡 . 𝑃(𝑡) dengan 𝑟 𝑡 = 1 − max𝑗 𝑃(𝑗|𝑡) dan 𝑃(𝑗|𝑡) adalah peluang beberapa objek berada dalam node t. Dalam node 9 terdapat dua kelas yaitu kelas tidak lancar dan kelas lancar. Nilai probabilitas tiap kelas dalam node 8 adalah sebagai berikut: 4 = 0.138 29 25 𝑃 lancar|𝑛𝑜𝑑𝑒 9 = = 0.862 29
𝑃 tidak lancar|𝑛𝑜𝑑𝑒 9 =
sehingga dengan menggunakan rumus 𝑟 𝑡 = 1 − max𝑗 𝑃(𝑗|𝑡), maka diperoleh 𝑟 𝑛𝑜𝑑𝑒 9 = 1 − max 𝑃 𝑗|𝑡 𝑗
= 1 − 0.862 = 0.138 . Nilai probabilitas objek yang berada dalam node 9 adalah 𝑃 𝑛𝑜𝑑𝑒 9 =
𝑁 𝑛𝑜𝑑𝑒 9 29 = = 9.42 × 10−2 . 𝑁 308
Oleh karena itu, 𝑅 𝑛𝑜𝑑𝑒 9 = 𝑟 𝑛𝑜𝑑𝑒 9 . 𝑃 𝑛𝑜𝑑𝑒 9 = 0.138 × 9.42 × 10−2 = 1.3 × 10−2 . Selanjutnya pada child node , yaitu node 10 dan terminal node 10 : Dengan cara perhitungan yang sama maka, node 10 memiliki nilai max𝑗 𝑃(𝑗|𝑡) sebesar 0.769, sehingga nilai 𝑟 𝑡𝐿 = 1 − max𝑗 𝑃(𝑗|𝑡) = 1 − 0.769 = 0.231. 𝑃(𝑡𝐿 ) adalah peluang banyaknya objek pada anak node sebelah kiri (Node 10), sehingga nilai 𝑁 𝑡𝐿 13 = = 4.22 × 10−2 . 𝑁 308 commit to user
𝑃 𝑡𝐿 =
perpustakaan.uns.ac.id
digilib.uns.ac.id 61
Oleh karena itu, 𝑅 𝑡𝐿 = 𝑟 𝑡𝐿 . 𝑃 𝑡𝐿 = 0.231 × 4.22 × 10−2 = 9.75 × 10−3 . Terminal node 10 memiliki nilai max𝑗 𝑃(𝑗|𝑡) sebesar 0.938, sehingga nilai 𝑟 𝑡𝑅 = 1 − max𝑗 𝑃(𝑗|𝑡) = 1 − 0.938 = 0.063. 𝑃(𝑡𝑅 ) adalah peluang banyaknya objek pada anak node sebelah kanan (terminal node 10), sehingga nilai 𝑃 𝑡𝑅 =
𝑁 𝑡𝑅 16 = = 5.19 × 10−2 . 𝑁 308
Oleh karena itu, 𝑅 𝑡𝑅 = 𝑟 𝑡𝑅 . 𝑃 𝑡𝑅 = 0.063 × 5.19 × 10−2 = 3.27 × 10−3 . Dengan demikian persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿 ) 1.3 × 10−2 = 3.27 × 10−3 + 9.75 × 10−3 1.3 × 10−2 = 1.3 × 10−2 terpenuhi untuk node 9, sehingga dilakukan pemangkasan. 5. Pohon Klasifikasi Optimal Setelah dilakukan pemangkasan pohon, langkah selanjutnya pemilihan pohon klasifikasi optimal. Dari 6 subtree akan dipilih satu pohon klasifikasi dengan nilai penduga pengganti yang terkecil. Dalam mencari pohon klasifikasi optimal digunakan metode Test Sample Estimate yaitu 𝑅 𝑡𝑠 𝑇 = 1 𝑁 (2)
𝑖,𝑗
(2)
𝐶(𝑖|𝑗)𝑁𝑖𝑗 , karena ukuran data yang besar. Nilai penduga pengganti
sample uji (test sample estimate) dari masing-masing subtree terlihat pada Tabel 4.11.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 62
Tabel 4.11. Tree Sequence Kondisi Ketiga Tree
Terminal Nodes
Test Set Relative Cost
Resubstitution
number
Relative Cost
1
19
0.97749 ± 0.08152
0.40270
2
17
0.94352 ± 0.08177
0.41238
3
11
0.87632 ± 0.07913
0.45464
4
9
0.85727 ± 0.07838
0.46982
5**
2
0.68321 ± 0.06881
0.54355
6
1
1.00000± 0.00000
1.00000
** Optimal
Pada Tabel 4.11. terlihat bahwa dari keenam subtree yang terbentuk, subtree nomor 5 dengan 3 terminal nodes adalah pohon klasifikasi optimal. Hal ini dikarenakan memenuhi kriteria nilai test set relative cost 𝑅 𝑡𝑠 𝑇𝑘0 = min𝑘 𝑅 𝑡𝑠 𝑇𝑘 yaitu subtree nomor 5 memiliki nilai paling kecil dari keenam subtree yang lainnya. Pohon klasifikasi optimal dapat dilihat pada Lampiran 7. 6. Predictive Accuracy Pohon klasifikasi optimal yang telah terpilih tadi kemudian diuji tingkat keakuratannya dalam mengelompokkan data learning. Uji keakuratan pohon klasifikasi optimal pada kondisi pertama dengan menggunakan 𝑅 𝑡𝑠
1 𝑑 = 𝑁1 =
𝑁
𝑋 𝑑 𝑥𝑛 ≠ 𝑗𝑛 (𝑥 𝑛 ,𝑗 𝑛 )∈ℒ1
18 + 22 40 = = 0.129 308 308
Dengan nilai 𝑅 𝑡𝑠 𝑑 = 0.129, maka ketepatan klasifikasinya adalah 1 − 0.129 = 0.8701 atau 87.01 %. Hasil dari klasifikasi pohon optimal dengan menggunakan data learning dapat dilihat pada Tabel 4.12 commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 63
Tabel 4.12. Tingkat Akurasi Pohon Optimal Dengan Data Learning Kondisi Ketiga Kelas
Total Kelas
Persentase
Lancar
Tidak Lancar
Akurasi
N = 241
N = 67
Sebenarnya Lancar
237
92.41
219
18
Tidak Lancar
71
69.01
22
49
Total
308
Rata-rata
80.71
Persentase
87.01
Keseluruhan Akurasi
Kemudian
pohon
optimal
diuji
keakuratannya
dengan
cara
mengklasifikasikan data testing untuk melihat kemampuan pohon klasifikasi optimal dalam mengklasifikasikan data baru. Persamaan yang digunakan pada data testing adalah 𝑅 𝑡𝑠 =
1 𝑑 = 𝑁2
𝑁
𝑋 𝑑 𝑥𝑛 ≠ 𝑗𝑛 (𝑥 𝑛 ,𝑗 𝑛 )∈ℒ2
32 + 42 74 = = 0.1705 434 434
Oleh karena itu, ketepatan klasifikasinya adalah 1 − 0.1705 = 0.8295 atau 82.95 %. Hasil dari klasifikasi pohon optimal dengan menggunakan data testing dapat dilihat pada Tabel 4.13.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 64
Tabel 4.13. Tingkat Akurasi Pohon Optimal Dengan Data Testing Kondisi Ketiga Kelas Sebenarnya
Total
Persentase
Lancar
Tidak Lancar
Kelas
Akurasi
N = 333
N = 101
Lancar
323
90.09
291
32
Tidak Lancar
111
62.16
42
69
Total
434
Rata-rata
76.13
Persentase
82.95
Keseluruhan Akurasi
4.2.4. Pemilihan Kondisi yang Tepat Dari contoh kasus klasifikasi nasabah AJB Bumiputera 1912, diberlakukan tiga kondisi yang berbeda dalam membentuk pohon klasifikasi yaitu proporsi pembagian data learning lebih besar dari data testing, proporsi pembagian data learning dan data testing sama, dan proporsi pembagian data learning lebih kecil dari data testing. Nilai ketepatan atau tingkat keakuratan pohon klasifikasi dari ketiga kondisi dapat dilihat pada Tabel 4.14. Tabel 4.14. Nilai Ketepatan dari Ketiga Kondisi No
Kondisi
Tingkat Ketepatan Klasifikasi Data Learning
Data Testing
1
Proporsi Data Learning > Data Testing
86.33
83.65
2
Proporsi Data Learning = Data Testing
87.17
81.94
3
Proporsi Data Learning < Data Testing
87.01
82.95
Pada Tabel 4.14. terlihat bahwa nilai ketepatan data learning untuk proporsi pembagian data learning > data testing menghasilkan nilai keakuratan untuk data commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 65
learning sebesar 86.33%. Proporsi pembagian data learning < data testing menghasilkan nilai keakuratan untuk data learning sebesar 87.01 %. Sedangkan proporsi pembagian data learning = data testing memiliki nilai keakuratan untuk data learning sebesar 87.17 %. Keakuratan nilai data testing untuk proporsi pembagian data learning = data testing yaitu 81.94 %. Proporsi pembagian data learning < data testing menghasilkan nilai keakuratan data testing sebesar 82.95 %. Sedangkan proporsi pembagian data learning > data testing memiliki nilai keakuratan data testing sebesar 83.65 %. Hal ini berarti bahwa apabila kita ingin memodelkan data tersebut maka kita pilih ketepatan klasifikasi data learning tertinggi yaitu untuk proporsi pembagian data learning = data testing. Akan tetapi apabila kita akan membuat model yang nantinya digunakan untuk mengklasifikasikan data baru maka dipilih nilai ketepatan testingnya tertinggi yaitu proporsi pembagian data learning > data testing.
4.2.5. Interpretasi Pohon Klasifikasi Untuk
membuat
model
yang
nantinya
akan
digunakan
untuk
mengklasifikasikan data baru maka pohon klasifikasi optimal terbaik yang digunakan adalah pohon pada kondisi pertama, dengan proporsi data learning : data testing sebesar 70%:30% dimana mempunyai nilai keakuratan data testing sebesar 83.65%. Untuk dua kondisi lainnya mempunyai langkah yang sama untuk menginterpretasikan pohon klasifikasinya. Pohon klasifikasi optimal dapat dilihat pada Lampiran 3 yang terbentuk didapat beberapa aturan klasifikasi sebagai berikut : 1.
Jika Cara Bayar dilakukan dengan cara setengah tahunan atau tahunan, maka status pembayaran adalah lancar. Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara setengah tahunan atau tahunan maka orang tersebut dapat dikatakan lancar.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 66
2.
Jika Cara Bayar dilakukan dengan cara triwulanan dan Premi Dasar sebesar kurang dari atau sama dengan Rp.159,770.00 maka status pembayaran adalah lancar. Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara triwulanan dan membayar Premi Dasar sebesar kurang dari atau sama dengan Rp.159,770.00 maka orang tersebut dapat dikatakan lancar.
3.
Jika Cara Bayar dilakukan dengan cara triwulanan dan Premi Dasar lebih dari Rp.159,770.00 dan Premi Dasar kurang dari atau sama dengan Rp. 160,770.00 maka status pembayaran adalah tidak lancar. Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara triwulanan dan membayar Premi Dasar sebesar lebih dari Rp. 159,770.00 dan kurang dari atau sama dengan Rp. 160,770.00 maka orang tersebut dapat dikatakan tidak lancar.
4.
Jika Cara Bayar dilakukan dengan cara triwulanan; Premi Dasar lebih dari Rp.160,770.00 dan kurang dari atau sama dengan Rp. 260,074.50 dan Jangka Waktu Asuransi kurang dari atau sama dengan 10.5 tahun maka status pembayaran adalah lancar. Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara triwulanan, membayar Premi Dasar sebesar lebih dari Rp. 260,074.50 dan kurang dari atau sama dengan Rp. 260,074.50 dan Jangka Waktu Asuransi kurang dari atau sama dengan 10.5 tahun maka orang tersebut dapat dikatakan lancar.
5.
Jika Cara Bayar dilakukan dengan cara triwulanan; Premi Dasar lebih dari Rp.160,770.00 dan kurang dari atau sama dengan Rp. 260,074.50 dan Jangka Waktu Asuransi lebih dari 10.5 tahun dan kurang dari atau sama dengan 14.5 tahun maka status pembayaran adalah tidak lancar. Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara Triwulanan; membayar Premi Dasar sebesar lebih dari Rp. 160,770.00 dan kurang dari atau sama dengan Rp. 260,074.50 dan Jangka Waktu Asuransi lebih commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id 67
dari 10.5 tahun dan kurang dari atau sama dengan 14.5 tahun maka orang tersebut dapat dikatakan tidak lancar. 6.
Jika Cara Bayar dilakukan dengan cara triwulanan; Premi Dasar lebih dari Rp.160,770.00 dan kurang dari atau sama dengan Rp. 260,074.50 dan Jangka Waktu Asuransi lebih dari 14.5 tahun maka status pembayaran adalah lancar. Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara triwulanan, membayar Premi Dasar sebesar lebih dari Rp. 160,770.00 dan kurang dari atau sama dengan Rp. 260,074.50 dan Jangka Waktu Asuransi lebih dari 14.5 tahun maka orang tersebut dapat dikatakan lancar.
7.
Jika Cara Bayar dilakukan dengan cara triwulanan dan Premi Dasar lebih dari Rp.260,074.50 dan kurang dari atau sama dengan Rp. 265,850.00 maka status pembayaran adalah tidak lancar. Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara triwulanan dan membayar Premi Dasar sebesar lebih dari Rp. 260,074.50 dan kurang dari atau sama dengan Rp. 265,850.00 maka orang tersebut dapat dikatakan tidak lancar.
8.
Jika Cara Bayar dilakukan dengan cara triwulanan dan Premi Dasar sebesar lebih dari Rp. 265,850.00 maka status pembayaran adalah lancar. Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara triwulanan dan membayar Premi Dasar sebesar lebih dari Rp. 265,850.00 maka orang tersebut dapat dikatakan tidak lancar.
9.
Jika Cara Bayar dilakukan dengan cara bulanan maka status pembayaran adalah tidak lancar. Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara bulanan maka orang tersebut dapat dikatakan tidak lancar.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB V PENUTUP 5.1 Kesimpulan Berdasarkan hasil dari pembahasan dapat ditarik kesimpulan bahwa dalam mengklasifikasikan nasabah asuransi AJB Bumiputera 1912 Surakarta diperoleh hasil interpretasi pohon klasifikasi pada kondisi pertama yaitu nasabah dengan status pembayaran lancar berarti bahwa seseorang yang melakukan Cara Bayar dengan cara setengah tahunan atau tahunan; Cara Bayar secara triwulanan tetapi membayar Premi Dasar sebesar lebih dari Rp. 160,770.00 dan kurang dari atau sama dengan Rp. 260,074.50 dan jangka waktu kurang dari atau sama dengan 10.5 th. Nasabah dengan status pembayaran tidak lancar berarti bahwa seseorang yang melakukan Cara Bayar dengan cara bulanan dan triwulanan tetapi membayar Premi Dasar sebesar lebih dari Rp. 160,770.00 dan kurang dari atau sama dengan Rp. 265,850.00 dan Jangka Waktu Asuransi lebih dari 10.5 tahun dan kurang dari atau sama dengan 14.5 th. 5.2 Saran Dalam skripsi ini metode yang digunakan adalah pohon klasifikasi dalam mengklasifikasikan data nasabah asuransi AJB Bumiputera 1912 Surakarta. Dalam skripsi ini variabel Penghasilan bertipe kontinu sehingga variabel ini lebih cepat tereliminasi dalam analisis yang dilakukan. Apabila pembaca tertarik maka dapat mengaplikasikan algoritma CART ini dengan mengubah variabel Penghasilan menjadi variabel kategorik karena variabel Penghasilan merupakan salah satu variabel yang mungkin berpengaruh dalam mengklasifikasikan nasabah asuransi Bumiputera 1912 Surakarta.
commit to user 68
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR PUSTAKA [1]
Breiman, L., J.H. Friedman, R.A. Olshen, and C.J. Stone, Classification And Regression Trees, Chapman & Hall, New York, 1993.
[2]
Kuntum, I., Penggunaan Pohon Keputusan untuk Data Mining, Institut Teknologi Bandung, Bandung, 2005.
[3]
Lewis, R.J, An Introduction to Classification And Regression Tree (CART) Analysis, Annual Meeting of the Society for Academic Emergency Medicine in San Fransisco, California, Department of Emergency Medicine, California, 2000.
[4]
Marc, Vayssieres, Richard E. Plant, Barbara H. Allen-Diaz, Classification Trees: An Alternative Non-Parametric Approach for Predicting Species Distributions, Journal of Vegetation Science, Vol. 11, No.5, pp. 679-694, Blackwell Publishing, 2000.
[5]
Soni, S., Implementation of Multivariate Data Set by CART Algorithm. Journal of Information Technology and Knowledge Management. Vol 2, No.2, pp 455-459, 2010.
[6]
Sunjana, Klasifikasi Data Nasabah sebuah Asuransi Menggunakan Algoritma C4.5, Universitas Widyatama, Yogyakarta, 2010.
[7]
Walpole, R.E dan R.H Myers, Ilmu Peluang dan Statistika Untuk Insinyur dan Ilmuwan, Terjemahan R.K Sembiring, ITB, Bandung, 1986.
[8]
Webb, P., and I. Yohannes, Classification And Regression Trees, CARTTM, International Food Policy Research Institute, Washington D.C, 1999.
[9]
Yuanita, D., dan S. Akbar, Pendekatan CART Untuk Mendapatkan Faktor yang Mempengaruhi Terjangkitnya Penyakit Demam Tifoid di Aceh Utara, Skripsi Mahasiswa Jurusan Statistika FMIPA ITS, Surabaya, 2010.
commit to user 69
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR LAMPIRAN Lampiran 1 : Sebagian Data Polis Lapse AJB Bumiputera 1912 Surakarta Lampiran 2 : Proses Pemangkasan Pohon Klasifikasi Kondisi Pertama Lampiran 3 : Pohon Klasifikasi Optimal Kondisi Pertama Lampiran 4 : Proses Pemangkasan Pohon Klasifikasi Kondisi Kedua Lampiran 5 : Pohon Klasifikasi Optimal Kondisi Kedua Lampiran 6 : Proses Pemangkasan Pohon Klasifikasi Kondisi Ketiga Lampiran 7 : Pohon Klasifikasi Optimal Kondisi Ketiga
commit to user 70
Lampiran 1 : Sebagian Data “Polis Lapse” Nasabah Ajb Bumiputera 1912 Surakarta Periode 1 Januari 2010 – 1 Desember 2010 status pembayaran
jenis kelamin
2
2
2
1
2
2
2
2
2
1
2
2
2
1
2
2
2
1
2
2
2
2
2
2
2
2
2
1
2
2
2
2
2
2
2
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
cara bayar 3 2 2 2 2 3 3 3 2 2 4 4 2 2 3 2 3 3 2 2 2 3 2 4 2
jangka waktu asuransi 11 17 5 5 10 10 10 20 16 16 10 10 17 17 10 10 10 15 10 16 15 10 16 10 10
premi dasar 149860 146250 300000 300000 267540 131001 142657 100878 485550 476580 1112000 1250400 284700 147030 99450 265980 200000 119075 350000 240000 336960 583000 154130 294000 300000
71
penghasilan 11988800 11700000 24000000 24000000 21403200 10480080 11412560 8070240 38844000 38126400 88960000 100032000 22776000 11762400 7956000 21278400 16000000 9526000 28000000 19200000 26956800 46640000 12330400 23520000 24000000
status 2 2 3 3 3 2 2 2 2 2 3 3 2 2 2 3 2 2 3 2 2 3 2 2 3
mata uang 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
macam asuransi 3 4 5 5 5 3 3 3 4 4 5 5 4 4 3 5 3 3 5 4 4 5 4 3 5
2
2
2
2
2
2
1
1
1
1
2
1
2
1
2
1
2
2
2
1
2
1
1
2
2
2
2
2
2
1
2
1
2
2
2
1
2
1
2
2
2
1
2
1
2
2
2
2
2
2
2
2
2
2
2
1
1
2
2
2
2
2
2 2 2 2 2 2 2 3 2 4 4 2 2 3 2 2 2 4 2 2 4 4 3 2 2 2 2 4 2 2 4
14 5 5 10 16 16 17 16 17 10 10 14 10 16 10 13 10 15 16 16 10 10 10 17 17 10 10 10 5 5 10
300000 260000 260000 282360 300000 300000 304980 649740 565760 1191400 2655000 175110 305877 257683 268060 1000000 500000 196000 318552 153530 498036 498711 599990 284700 282880 266240 500000 247528 300001 298090 250000
24000000 20800000 20800000 22588800 24000000 24000000 24398400 51979200 45260800 95312000 212400000 14008800 24470160 20614640 21444800 80000000 40000000 15680000 25484160 12282400 39842880 39896880 47999200 22776000 22630400 21299200 40000000 19802240 24000080 23847200 20000000
2 3 3 3 2 2 2 2 2 3 3 2 3 2 3 2 3 2 2 2 2 2 3 2 2 3 3 2 3 3 2
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
4 5 5 5 4 4 4 4 4 5 5 4 5 3 5 4 5 3 4 4 3 3 5 4 4 5 5 3 5 5 3
2
2
2
2
1
1
1
1
1
2
2
1
2
1
2
2
2
1
2
1
2
1
2
2
2
2
2
2
2
1
2
1
2
2
2
2
1
1
2
2
2
2
2
1
2
1
2
2
2
1
2
1
2
1
2
2
2
2
1
2
1
1
2 2 2 2 2 3 2 3 2 2 4 4 4 2 2 4 2 2 2 2 2 3 2 4 2 3 2 3 2 3 2
5 5 17 10 10 15 5 10 10 10 17 10 5 10 10 10 8 10 16 15 5 20 10 10 16 20 14 10 17 20 5
867750 867750 284180 300000 300000 306000 607698 900029 296296 300000 12760000 10620000 1009350 320827 265980 2572500 270000 300017 310960 322660 302427 196605 309764 363580 3231800 131070 527280 300015 565760 156825 300000
69420000 69420000 22734400 24000000 24000000 24480000 48615840 72002320 23703680 24000000 1020800000 849600000 80748000 25666160 21278400 205800000 21600000 24001360 24876800 25812800 24194160 15728400 24781120 29086400 258544000 10485600 42182400 24001200 45260800 12546000 24000000
3 3 2 3 3 2 3 3 3 3 3 3 3 3 3 3 3 3 2 2 3 2 3 2 3 2 2 2 2 2 3
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
5 5 4 5 5 3 5 5 5 5 6 5 5 5 5 5 5 5 4 4 5 3 5 3 6 3 4 3 4 3 5
1
1
1
2
1
1
1
2
2
2
1
2
2
1
2
2
2
1
2
1
2
2
2
1
3 3 2 2 2 4 2 2 2 2 4 4
20 15 17 14 5 10 6 5 17 5 5 5
151470 175098 284700 357500 291590 1790100 300000 300000 211660 300000 1000020 490000
12117600 14007840 22776000 28600000 23327200 143208000 24000000 24000000 16932800 24000000 80001600 39200000
2 2 2 2 3 3 3 3 2 3 3 2
1 1 1 1 1 1 1 1 1 1 1 1
3 3 4 4 5 5 5 5 4 5 5 3
Lampiran 2 : Proses Pemangkasan Pohon Klasifikasi Kondisi Pertama
perpustakaan.uns.ac.id
digilib.uns.ac.id
Lampiran 3 : Pohon Klasifikasi Optimal Kondisi Pertama
commit to user
Lampiran 4 : Proses Pemangkasan Pohon Klasifikasi Kondisi Kedua
perpustakaan.uns.ac.id
digilib.uns.ac.id
Lampiran 5 : Pohon Klasifikasi Optimal Kondisi Kedua
Node 1 Class = Lancar CARA_BAYAR = (Triw ulanan,Setengah Tahunan, Tahunan) Class Cases % Tidak Lancar 86 22.5 Lancar 296 77.5 W = 382.00 N = 382
CARA_BAYAR = (Triw ulanan...)
CARA_BAYAR = (Bulanan)
Terminal Node 1 Class = Lancar Class Cases % Tidak Lancar 25 8.4 Lancar 272 91.6 W = 297.00 N = 297
Terminal Node 2 Class = Tidak Lancar Class Cases % Tidak Lancar 61 71.8 Lancar 24 28.2 W = 85.00 N = 85
commit to user
Lampiran 6 : Proses Pemangkasan Pohon Klasifikasi Kondisi Ketiga
perpustakaan.uns.ac.id
digilib.uns.ac.id
Lampiran 7 : Pohon Klasifikasi Optimal Kondisi Ketiga
Node 1 Class = Lancar CARA_BAYAR = (Triw ulanan,Setengah Tahunan, Tahunan) Class Cases % Tidak Lancar 71 23.1 Lancar 237 76.9 W = 308.00 N = 308
CARA_BAYAR = (Triw ulanan...)
CARA_BAYAR = (Bulanan)
Terminal Node 1 Class = Lancar Class Cases % Tidak Lancar 22 9.1 Lancar 219 90.9 W = 241.00 N = 241
Terminal Node 2 Class = Tidak Lancar Class Cases % Tidak Lancar 49 73.1 Lancar 18 26.9 W = 67.00 N = 67
commit to user