BAB I PENDAHULUAN
1.1.
Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal
ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet sebagai sarana utama penyampaian informasi. Seiring berjalannya waktu, informasi yang beredar melalui komputer semakin banyak seiring dengan semakin tingginya mobilitas manusia yang ingin serba praktis dan efisien. Dampak yang disebabkan oleh arus informasi yang cepat ini adalah semakin masifnya datadata yang tersimpan didalam jaringan. Data yang dihasilkan oleh teknologi ini tidak hanya berguna disatu bidang saja, tetapi hampir disemua bidang kehidupan. Untuk memanfaatkan data yang tersebar sangat banyak di dunia digital ini, diperlukan suatu alat untuk mengolah dokumen-dokumen sehingga informasinya dapat terserap dan tersajikan dengan baik. Salah satu alat yang dapat digunakan adalah data mining. Data mining berkembang dalam berbagai aplikasi secara luas seperti pada analisis senyawa organik, diagnosis medis, desain produk, marketing, deteksi penipuan kartu kredit, peramalan keuangan, prediksi saham, prediksi hasil panen pertanian, dan masih banyak lagi. Tidak tanggung-tanggung, data mining mengacu pada analisis dari data dengan jumlah yang sangat besar yang disimpan dalam komputer. Jadi, data mining sangat cocok digunakan untuk mengatasi data masif. Data mining tidak hanya spesifik menangani satu jenis media atau data, tetapi dapat diaplikasikan untuk setiap jenis repository informasi. Data mining mulai digunakan dan dipelajari untuk database, termasuk relational databases, object-relational databases dan object-oriented databases, data warehouse, transactional databases, data tidak terstruktur dan data semi tidak terstruktur
1
seperti World Wide Web, database canggih seperti spatial databases, multimedia databases, time-series databases, textual databases dan bahkan flat files. Banyak fungsi yang dapat dilakukan menggunakan data mining. Diantaranya adalah classification, clustering, feature selection dan association rule mining. Salah satu yang akan dibahas lebih lanjut dalam skripsi ini adalah fungsi klasifikasi. Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk memperkirakan kelas dari suatu objek (Mulyanto, 2009). Mengapa data yang kita dapat harus diklasifikasikan? Saat ini, data telah menjadi aset penting yang menentukan ketangguhan sebuah bukti nyata. Sebagai contoh adalah data tentang informasi finansial harus dipisahkan dengan data kepegawaian. Hal ini dikarenakan kedua objek tersebut merupakan dua hal yang berbeda dari segi kegunaan maupun kerahasiaan. Dalam hal ini pengklasifikasian sangatlah penting. Selain akan memberikan pengamanan yang sesuai dengan kelas data, klasifikasi juga akan membantu kita menghemat sumber daya dalam pengelolaan informasi menjadi lebih efisien dan efektif. Klasifikasi merupakan proses awal dari pengelompokan data. Proses klasifikasi biasanya menggunakan satu set data training dimana semua objeknya sudah terkait dengan label kelas yang diketahui. Algoritma klasifikasi akan digunakan untuk menganalisis dan mengambil sifat dari data training untuk membangun suatu model yang sesuai. Kemudian model yang didapat akan digunakan untuk mengklasifikasikan objek baru. Proses ini merupakan proses yang sangat penting dalam sistem informasi khususnya dalam data mining untuk memperoleh informasi yang tepat guna. Terdapat berbagai macam teknik klasifikasi dokumen dalam data mining, diantaranya
adalah
Decision
Tree,
Bayesian
Classification,
Rule-Based
Classification dan Support Vector Machine. Namun pada kenyataannya, pengklasifikasian dokumen tidak dapat seratus persen tepat seperti pada data aslinya. Seringkali pengklasifikasian juga mengandung galat atau eror yang cukup
2
besar nilainya. Pada skripsi ini, penulis akan membandingkan keakuratan dari dua metode klasifikasi data mining yaitu Naive Bayes Classifier dan Decision Tree (Pohon Keputusan) J48 yang diangkat dari sebuah jurnal Sant Gadgebaba Amravati University pada tahun 2013. Metode Naive Bayes dan Decision Tree J48 merupakan dua metode yang cukup terkenal dan sering digunakan dalam pengklasifikasian dokumen. Keduanya memiliki keakuratan cukup tinggi dan output yang mudah dimengerti. Naive Bayes Classifier didasarkan pada teorema Bayes yang menggunakan probabilitas dalam perhitungan klasifikasinya dengan asumsi bahwa setiap variabel bersifat bebas(independent). Dengan kata lain, Naive Bayes Classifier mengasumsikan bahwa keberadaan sebuah variabel tidak ada kaitannya dengan variabel lain. Sementara Algoritma J48 merupakan algoritma yang digunakan untuk membentuk pohon keputusan. Pohon keputusan merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode ini mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan ini dapat dengan mudah dipahami dengan bahasa alami dan juga dapat diekspresikan dalam bentuk bahasa basis data seperti Structures Query Language untuk mencari record pada kategori tertentu. Perbandingan kedua metode dibuat pada akurasi, sensitivitas dan spesifisitas yang bertujuan untuk menganalisa dan membandingkan time taken to build (kecepatan waktu dalam memilih model) dan average precision and recall (ketepatan dalam memprediksi) yang terbaik dari setiap metode klasifikasi yang digunakan. Perbandingan presisi kedua metode akan menggunakan true positive dan false positive dalam confusion matrix yang dihasilkan oleh algoritma masingmasing. Dengan menggunakan confusion matrix, dapat diketahui metode mana yang dapat memberi model yang paling akurat untuk klasifikasi. Dalam analisis perbandingan kedua metode klasifikasi ini, penulis menggunakan data yang cukup besar kuantitasnya untuk diolah menggunakan dua metode klasifikasi diatas. Setelah mendapatkan model klasifikasinya, penulis akan melihat hasil dan juga membandingkan keakuratannya. Penulis menggunakan data 3
sekunder Mushroom Record bernama mushroom.arff yang diambil dari UCI (University of California, Irvine) Machine Learning Repository yang bertujuan untuk mengklasifikasikan mana jamur yang dapat dikonsumsi (edible) dan mana jamur yang beracun (poisonous). Data ini memiliki 8124 observasi dengan 22 atribut dan satu variabel respon.
1.2.
Perumusan Masalah Berdasarkan latar belakang masalah diatas dapat dirumuskan hal-hal
sebagai berikut : 1. Bagaimana cara kerja metode Naive Bayes Classifier dalam melakukan pengklasifikasian jamur edible dan poisonous? 2. Bagaimana cara kerja metode Decision Tree (Pohon Keputusan) J48 dalam melakukan pengklasifikasian jamur edible dan poisonous? 3. Bagaimana perbandingan keakurasian pengklasifikasian jamur edible dan poisonous menggunakan metode Naive Bayes Classifier dan metode Decision Tree (Pohon Keputusan) J48?
1.3.
Batasan Masalah Batasan-batasan masalah pada penelitian tugas akhir ini adalah : 1. Software yang digunakan pada penelitian tugas akhir ini adalah menggunakan software open source WEKA (Wakaito Environment for Knowledge Analysis) 3.6.13, dibantu dengan software tambahan yaitu software R 3.2.3 dan Microsoft Excel 2013. 2. Data yang digunakan merupakan data sekunder Mushroom Record bernama mushroom.arff yang diambil dari UCI (University of California, Irvine) Machine Learning Repository yang bertujuan untuk mengklasifikasikan mana jamur yang dapat dikonsumsi(edible) dan mana jamur yang beracun(poisonous).
4
3. Analisis ini hanya akan melakukan klasifikasi menggunakan metode Naive Bayes Classifier dan metode Decision Tree (Pohon Keputusan) J48 lalu akan dibandingkan keakuratannya.
1.4.
Tujuan Penelitian Tujuan utama yang ingin dicapai penulis adalah dapat menunjukkan bahwa
metode Naive Bayes Classifier dan metode Decision Tree (Pohon Keputusan) J48 dapat digunakan dalam pengklasifikasian data dengan kuantitas besar. Dalam tugas akhir ini penulis menggunakan data Mushroom Record yang bertujuan untuk mengklasifikasikan mana jamur yang dapat dikonsumsi(edible) dan mana jamur yang beracun(poisonous). Setelah mendapatkan hasilnya, penulis juga akan membandingkan keakuratan yang dihasilkan dari dua metode klasifikasi diatas. Keakuratan yang lebih tinggi, lebih baik untuk digunakan.
1.5.
Manfaat Penelitian Manfaat yang diharapkan diperoleh dari penelitian ini adalah : 1. Memperluas pengetahuan pembaca mengenai jenis-jenis jamur yang dapat dimakan (edible) dan mana jamur yang beracun (poisonous) melalui ciri-ciri fisiknya. 2. Menunjukkan bahwa metode Naive Bayes Classifier dan metode Decision Tree (Pohon Keputusan) J48 dapat digunakan menjadi salah satu alternatif pengklasifikasian, dalam contoh kasus di skripsi ini untuk mengklasifikasikan jamur yang dapat dikonsumsi(edible) dan mana jamur yang beracun(poisonous). 3. Memberikan informasi mengenai perbandingan keakuratan metode klasifikasi Naive Bayes Classifier dan metode Decision Tree (Pohon Keputusan) J48.
5
1.6.
Tinjauan Pustaka Di era serba digital ini, data mining termasuk salah satu topik hangat yang
banyak diperbincangkan karena kemampuannya untuk mengatasi big data. Salah satunya dapat mengolah data klasifikasi jamur yang dapat dimakan dan jamur yang beracun. Pengklasifikasian ini dapat dilakukan menggunakan metode Naive Bayes Classifier. Metode ini merupakan sebuah metode klasifikasi yang berakar dari teorema Bayes. Selain itu pengklasifikasian juga dapat menggunakan Decision Tree (Pohon Keputusan) J48. J48 merupakan implementasi dari C4.5 di WEKA. Sedangkan C4.5 merupakan mengembangan dari ID3 yang mampu menangani atribut dengan tipe diskrit ataupun kontinu, mampu menangani missing value dan dapat memangkas cabang. Natalius (2011) membahas tentang klasifikasi dokumen (email) dengan menggunakan metode Naive Bayes Classifier. Dalam tulisannya dijelaskan bahwa metode Naive Bayes baik digunakan, namun memiliki beberapa kekurangan. Kekurangan dari metode Naive Bayes ini adalah banyaknya celah untuk mengurangi keefektifan metode ini dan akibatnya meloloskan dokumen ke dalam kelas tertentu padahal jelas-jelas dokumen tersebut tidak layak berada di kelas tersebut. Ervina (2014) pada artikelnya membahas tentang klasifikasi tanaman tebu dengan menggunakan algoritma Naive Bayes Classification pada dinas kehutanan dan perkebunan. Dalam tulisannya dijelaskan bahwa kinerja sistem untuk masalah klasifikasi tebu produktif sebesar 73.3%. Data yang digunakan untuk mengklasifikasikan lebih banyak terdapat data yang kontinu dibandingkan dengan data diskrit, hal inilah yang mempengaruhi perhitungan pada kinerja sistem yang digunakan.
Berdasarkan percobaan
yang dilakukan dengan perhitungan
probabilitas, memiliki nilai lebih dari 50%. Hal ini berarti kinerja Naive Bayes yang diterapkan dalam permasalahan sudah cukup baik. Paratu (2012) membahas tentang algoritma C4.5 untuk melakukan klasifikasi customer churn. Pada skripsinya, dibahas bagaimana analisis untuk
6
mengetahui pelanggan yang akan pindah (churn) dari provider telekomunikasi tersebut, sehingga lebih lanjut akan ditentukan mana pelanggan yang harus dipertahankan oleh provider tersebut. Algoritma C4.5 ini dirasa cukup akurat untuk mengklasifikasikan apakah pelanggan akan pindah (churn) atau tidak dengan tampilan pohon keputusan yang mudah dipahami kebanyakan orang pada umumnya. Lesmana (2012) pada artikelnya membahas tentang cara untuk melakukan diagnosis terhadap suatu penyakit. Salah satunya menggunakan teknik data mining yang bertujuan mengekstraksi dan menemukan pola dari kumpulan informasi yang berharga. Dalam penelitian ini, data mining menggunakan decision tree J48 digunakan untuk memprediksi diagnosis penyakit diabetes mellitus. Efektifitas metode ini diuji menggunakan 10-fold cross validation, dimana dari hasil pengukuran confusion matrix didapatkan akurasi sebesar 74.72%. Hal ini berarti metode decision tree J48 efektif dan dapat digunakan untuk prediksi diagnosis penyakit diabetes mellitus.
1.7.
Metode Penulisan Metode yang digunakan dalam penulisan tugas akhir ini mengacu pada studi
literatur, seperti buku-buku, jurnal-jurnal ilmiah maupun media lain seperti internet serta bahan pendukung lainnya yang dapat penulis gunakan sebagai referensi dalam penulisan tugas akhir ini. Penulis akan menyelesaikan penelitian ini menggunakan bantuan software WEKA (Wakaito Environment for Knowledge Analysis) versi 3.6.13, software R 3.2.3 dan Microsoft Excel 2013. Data yang digunakan dalam penelitian ini adalah data sekunder Mushroom Record bernama mushroom.arff yang diambil dari UCI (University of California, Irvine) Machine Learning Repository yang bertujuan untuk mengklasifikasikan mana jamur yang dapat dikonsumsi(edible) dan mana jamur yang beracun(poisonous).
7
1.8.
Sistematika Penulisan Sistematika penulisan yang digunakan dalam penyusunan tugas akhir ini
adalah sebagai berikut : BAB I Pendahuluan Bab ini menjelaskan tentang latar belakang dibuatnya skripsi ini, perumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, serta tinjauan pustakan yang digunakan sebagai bahan referensi dalam penulisan tugas akhir. BAB II Dasar Teori Bab ini membahas teori-teori yang menjadi landasan pada topik yang dibahas pada tugas akhir, yaitu mengenai data mining dan uji-uji statistik baik secara umum maupun khusus yang akan digunakan lebih lanjut di babbab selanjutnya. BAB III Pembahasan Bab ini akan membahas tentang penggunaan metode Naive Bayes Classifier dan metode Decision Tree (Pohon Keputusan) J48 serta perbandingan keakuratan kedua metode tersebut dalam mengklasifikasikan jamur yang aman dikonsumsi dan jamur yang beracun. BAB IV Studi Kasus Bab ini membahas tentang data yang digunakan sebagai contoh, kasus pengklasifikasian jamur beracun dan aman dikonsumsi. Pada bab ini akan dibahas bagaimana metode metode Naive Bayes Classifier dan metode Decision Tree (Pohon Keputusan) J48 akan melakukan klasifikasi dan setelah itu akan dibandingkan keakuratannya.
8
BAB V Penutup Bab ini berisi tentang kesimpulan yang telah diperoleh, pemecahan masalah serta saran yang diberikan akibat kekurangan maupun kelebihan dari hasil penelitian. DAFTAR PUSTAKA LAMPIRAN
9