BAB I PENDAHULUAN
1.1. Latar Belakang Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis data. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basis data. Data mining juga merupakan proses semi otomatik yang memuat teknik statistika dan matematika di dalamnya. Teknik-teknik data mining yang populer ada tiga, yaitu association rules, classification dan clustering. Klasifikasi (classification) merupakan pengelompokan secara sistematis pada suatu objek atau benda ke dalam golongan atau pola-pola tertentu berdasarkan kesamaan ciri. Teknik klasifikasi adalah pendekatan sistematis untuk membangun model klasifikasi dari basis data yang telah diinput. Contoh tekniknya adalah decision tree classification, rule-based classification, neural networks, support vector machines, dan naive Bayess classification. Metode klasifikasi dibedakan menjadi dua yaitu metode klasifikasi parametrik dan nonparametrik. Metode klasifikasi parametrik yang sering digunakan antara lain analisis regresi logistik, analisis diskriminan, dan analisis regresi probit. Metode klasifikasi parametrik umumnya terikat pada asumsi tertentu misalnya kenormalan data yang harus dipenuhi. Sedangkan metode klasifikasi nonparametrik tidak bergantung pada asumsi tertentu sehingga memberikan fleksibilitas yang lebih besar dalam menganalisis data tetapi tetap mempunyai tingkat akurasi yang tinggi
Universitas Sumatera Utara
2
dan mudah dalam penggunaannya. Dalam proses klasifikasi, metode klasifikasi nonparametrik menggunakan setiap data sebagai dasar penunjukan kelas. Pada perkembangan terbaru, teknik-teknik yang terdapat di dalam data mining mulai banyak digunakan. Khususnya teknik decision tree telah menjadi teknik yang populer karena pohon yang dihasilkan mudah diinterpretasikan dan divisualisasikan (Chye, 2004). Namun, permasalahan dalam mengklasifikasikan data adalah terjadinya salah klasifikasi, misalnya dalam pengelompokkan data berdasarkan karakteristiknya, terkandung unsur ketidakpastian data terkait dengan pemikiran dan persepsi manusia untuk membaginya. Ide himpunan fuzzy (fuzzy set) di awali dari matematika dan teori sistem dari L.A Zadeh, pada tahun 1965. Himpunan fuzzy didasarkan pada gagasan untuk memperluas jangkauan fungsi karakteristik sehingga fungsi tersebut akan mencakup bilangan real pada interval [0,1]. Nilai keanggotaannya menunjukkan bahwa suatu item tidak hanya bernilai benar atau salah. Nilai 0 menunjukkan salah, nilai 1 menunjukkan benar, dan masih ada nilai-nilai yang terletak antara benar dan salah (Sudradjat, 2008). Metode logika fuzzy mempunyai tiga tahapan proses yaitu fuzzifikasi, inferensi dan defuzzifikasi. Dalam teori logika fuzzy sebuah nilai bisa bernilai benar dan salah secara bersamaan tapi berapa besar kebenaran dan kesalahan suatu nilai tergantung dari berapa besar bobot keanggotaan yang dimilikinya Pada tahun 1992, Sanaa Elyassami telah melakukan penelitian dengan menginduksikan Fuzzy pada Iterative Dichotomiser 3 (ID3), hasil penelitiannya
Universitas Sumatera Utara
3
menunjukkan bahwa penggunaan fuzzy pada algoritma tersebut mampu meningkatkan akurasi klasifikasi. Jay Fowdar, Zuhair Bandar, Keeley Crockett dari Departement of Computing and Mathematics Manchester Metropolitan University melakukan penelitian yang berjudul Inducing Fuzzy Decision Trees in Non-Deterministic Domains using CHAID (2002), penelitian ini memperkenalkan bahwa fuzzy dapat diinduksikan ke dalam analisis decision tree. Algoritma induksi fuzzy dapat digunakan untuk melunakkan (soften) batasan keputusan yang tajam (sharp) pada algoritma pohon keputusan (decision tree) tradisional. Muhammad Muhajir (2014) juga telah melakukan penelitian menggunakan fuzzy CHAID, yang memperlihatkan bahwa CHAID yang telah diinduksikan dengan fuzzy memiliki tingkat akurasi yang lebih baik daripada CHAID itu sendiri. Ada beberapa algoritma decision tree yang termasuk dalam metode klasifikasi nonparametrik selain ID3 dan CHAID, yaitu CART, QUEST, CRUISE dan GUIDE yang dapat digunakan untuk membangun model pohon. Semua algoritma tersebut menghasilkan model pohon yang berbeda untuk basis data yang sama. CART (Classification and Regression Trees) adalah metode yang dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J. Stone sekitar tahun 1980-an. CART dapat menyeleksi variabel-variabel dan interaksi-interaksi variabel yang penting dalam menentukan variabel dependennya, sehingga menghasilkan suatu kelompok data yang akurat sebagai karakteristik kelompok tersebut. CART menghasilkan pohon biner, yaitu pohon yang cabangnya hanya terbagi menjadi dua kelompok berdasarkan splitter terbaik dari variabel independennya.
Universitas Sumatera Utara
4
Berdasarkan uraian di atas, peneliti tertarik melakukan penelitian dan selanjutnya melihat hasil akurasi induksi Fuzzy pada Algoritma CART. Sehingga penelitian ini penulis beri judul “Studi Algoritma CART dengan Induksi Fuzzy dalam Mengklasifikasikan Data”. 1.2. Rumusan Masalah Perumusan masalah dalam penelitian ini adalah bagaimana hasil akurasi pada Algoritma CART yang telah menggunakan induksi Fuzzy dalam mengklasifikasikan data. 1.3. Batasan Masalah Penelitian ini dibatasi pada fuzzy yang diinduksikan ke dalam CART merupakan Fuzzy Metode Mamdani. 1.4. Tujuan Penelitian Tujuan dari penelitian ini adalah untuk mengetahui hasil akurasi dari Algoritma CART yang telah menggunakan induksi Fuzzy dalam mengurangi ketajaman perbedaan antar variabelnya. 1.5. Kontribusi Penelitian Hasil penelitian ini diharapkan dapat memberikan manfaat, yaitu: a.
Dapat menambah wawasan peneliti dan pembaca tentang Algoritma CART.
b.
Dapat menambah wawasan peneliti dan pembaca tentang induksi Fuzzy pada Algoritma CART.
c.
Dapat menambah wawasan peneliti dan pembaca sekalian dalam teknikteknik klasifikasi data.
Universitas Sumatera Utara
5
d.
Dapat menambah referensi bagi pembaca dalam penelitian sejenis di masa yang akan datang.
1.6. Tinjauan Pustaka CART (Classification and Regression Trees) adalah salah satu metode atau algoritma dari salah satu teknik eksplorasi data decision tree. Metode ini dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J. Stone sekitar tahun 1980-an. CART merupakan metodologi statistik non-parametrik yang dikembangkan untuk topik analisis klasifikasi, baik untuk variabel respon kategorik maupun kontinu. CART menghasilkan suatu pohon klasifikasi jika variabel responnya kategorik, dan menghasilkan pohon regresi jika variabel responnya kontinu. Menurut Ari Wibowo (2013), langkah-langkah penerapan metode CART terdiri atas : a.
Pembentukan pohon klasifikasi, yaitu pemilihan pemilah (classifier), penentuan simpul terminal, dan penandaan label kelas.
b.
Pemangkasan pohon klasifikasi, yaitu dengan jalan memangkas bagian tree yang kurang penting sehingga didapatkan pohon optimal.
c.
Penentuan pohon klasifikasi optimal. Langkah-langkah pembentukan pohon klasifikasi pada CART didasarkan
pada indeks Gini, dengan perhitungan sebagai berikut : ∑ dimana :
i(t)
= Indeks Gini
P(j|t)
= Probabilitas atribut j pada node t
Universitas Sumatera Utara
6
Logika fuzzy adalah bagian atau salah satu metode dalam kecerdasan buatan (Artificial Intelligence). Dalam logika konvensional nilai kebenaran mempunyai kondisi yang pasti yaitu benar atau salah (true or false), dengan tidak ada kondisi di antara. Prinsip ini dikemukakan oleh Aristoteles sekitar 2000 tahun yang lalu sebagai hukum Excluded Middle dan hukum ini telah mendominasi pemikiran logika sampai saat ini (Zhang, 2009). Proses fuzzy logic melibatkan fungsi keanggotaan, operator logika fuzzy, dan aturan jika-maka (if-then rule). Dalam membangun sistem yang berbasis pada aturan fuzzy maka akan digunakan variabel linguistik. Variabel linguistik adalah suatu interval numerik dan mempunyai nilai-nilai linguistik, yang semantiknya didefinisikan oleh fungsi keanggotaannya (Slamet Riyadhi, 2014). Metode Mamdani sering juga dikenal dengan nama Metode Max-Min. Metode ini diperkenalkan oleh Ebrahim Mamdani pada tahun 1975. Untuk mendapatkan output, diperlukan 4 tahapan yaitu sebagai berikut (Sri Kusumadewi, 2010) : a.
Pembentukan himpunan fuzzy. Variabel input maupun variabel output dibagi menjadi satu atau lebih himpunan fuzzy.
b.
Aplikasi fungsi implikasi (aturan). Fungsi implikasi yang digunakan adalah min.
c.
Komposisi aturan. Metode yang digunakan dalam melakukan inferensi sistem fuzzy pada penelitian ini, yaitu max.
d.
Defuzzifikasi. Metode defuzzifikasi yang digunakan dalam penelitian ini adalah metode Centroid.
Universitas Sumatera Utara
7
Keakurasian fuzzy inference system Mamdani dihitung menggunakan persamaan berikut : Akurasi=(Jumlah data sesuai)/(Jumlah data) x 100% 1.7. Metodologi Penelitian 1.7.1. Jenis dan Data Penelitian Penelitian ini termasuk jenis studi literatur dengan mencari referensi teori yang relevan dengan permasalahan yang ditemukan. Referensi teori yang diperoleh dengan jalan penelitian studi literatur dijadikan sebagai fondasi dasar dan alat utama dalam uji coba pengolahan data contoh. Sumber literatur diperoleh dari buku, jurnal, buku dokumentasi, artikel internet dan pustaka yang terkait dengan tema penelitian, yaitu analisis mengenai Fuzzy dan CART. Jenis data yang digunakan sebagai contoh adalah data sekunder, yaitu data yang diperoleh dari data pasien kanker Wisconsin University. 1.7.2. Teknik Penelitian a.
Studi literatur, yaitu mencari dan menghimpun data-data atau sumber-sumber informasi yang berhubungan dengan topik CART dan Fuzzy.
b.
Uji coba pengolahan data contoh dengan langkah-langkah berikut : 1) Editing, yaitu mengelompokkan variabel pada database tersebut menjadi variabel kategorik; 2) Membagi data menjadi 2 bagian, yaitu 80% data learning dan 20% data testing; 3) Melakukan Algoritma CART pada data learning;
Universitas Sumatera Utara
8
4) Menentukan rules untuk induksi Fuzzy sesuai dengan output algoritma CART; 5) Menentukan variabel fuzzy; 6) Aplikasi fungsi implikasi; 7) Defuzzifikasi; 8) Uji Akurasi klasifikasi dengan data testing. c.
Membuat kesimpulan berupa hasil analisis algoritma CART tanpa induksi fuzzy dan hasil analisis algoritma CART dengan induksi fuzzy.
Universitas Sumatera Utara