Bab I Pendahuluan
1.1 Latar Belakang Klasifikasi merupakan task dari data mining yang bertujuan untuk memberikan label kelas terhadap suatu data. Pemberian label kelas ini dilakukan oleh classifier. Suatu classifier dianggap baik jika memiliki nilai efektifitas (yaitu kemampuan untuk memberikan prediksi klasifikasi data yang akurat) yang tinggi dibandingkan dengan nilai efisiensi yang tinggi. Akan tetapi nilai efisiensi tetap dibutuhkan untuk membandingkan dua buah classifier yang mempunyai nilai efektifitas yang sama. Contoh nilai efektifitas adalah rasio akurasi. Sedangkan contoh ukuran efisiensi adalah efisiensi pembelajaran dan efisiensi klasifikasi. Efisiensi pembelajaran adalah rata-rata waktu yang dibutuhkan untuk membangun sebuah classifier. Sedangkan efisiensi klasifikasi adalah rata-rata waktu yang dibutuhkan suatu classifier untuk mengklasifikasikan suatu data baru. [KHO06]
Secara garis besar, terdapat dua buah jenis classifier yaitu classifier tunggal dan multi-classifiers. Kedua jenis classifier di atas dibedakan berdasarkan pada jumlah classifier yang membentuknya. Classifier tunggal adalah suatu jenis classifier yang hanya terdiri dari sebuah classifier. Classifier tunggal sering juga disebut dengan base classifier. Multi-classifiers adalah suatu classifier yang terdiri dari beberapa buah base classifier. Classifier jenis ini sering juga disebut sebagai classifier committees atau ensemble classifiers. Contoh multi-classifiers adalah bagging dan boosting.
Pada bagging, training set untuk membentuk setiap base classifier dibuat dengan cara mengacak, dengan melakukan penggantian, N buah data dimana N adalah jumlah training set secara keseluruhan. Sedangkan pada boosting,
training set yang
digunakan untuk membentuk setiap base classifier dipilih berdasarkan performansi dari classifier sebelumnya. Pada saat melakukan klasifikasi, baik bagging maupun boosting sama-sama menggunakan cara voting, tetapi voting pada boosting dipengaruhi oleh bobot setiap base classifier yang membentuknya. [OPI99]
I-1
I-2
Para peneliti berpendapat bahwa untuk mendapatkan suatu classifier dengan kinerja yang baik, lebih baik mengkombinasikan multi-classifiers daripada memperbaiki kinerja classifier tunggal. Kombinasi multi-classifiers ini memiliki kinerja yang lebih baik dari classifier tunggal (base classifier) yang membentuknya. Akan tetapi, penggunaan multi-classifiers ini memiliki beberapa kekurangan seperti loss of comprehensibility dan penggunaan resources komputasi yang berlebihan. [FER04]
Masalah loss of comprehensibility terjadi dikarenakan klasifikasi yang dihasilkan merupakan kombinasi dari beberapa klasifikasi yang dihasilkan oleh setiap base classifier yang membentuk multi-classifiers tersebut. Hal ini mengakibatkan hasil klasifikasi yang dihasilkan oleh multi-classifiers sulit dijelaskan berasal dari base classifier yang mana dan berdasarkan karakteristik apa klasifikasi tersebut dihasilkan. [KHO06]
Masalah penggunaan resources komputasi yang berlebihan dikarenakan proses pembelajaran dan pengklasifikasian untuk n buah base classifiers yang digunakan untuk membentuk multi-classifiers tersebut. Jika sumber daya yang digunakan untuk pembelajaran dan klasifikasi setiap base classifier sama yaitu x dan y, maka sumber daya yang dibutuhkan untuk pembelajaran multi-classifiers tersebut adalah n*x dan sumber daya yang dibutuhkan untuk melakukan pengklasifikasian multi-classifiers tersebut adalah n*y + waktu untuk mengkombinasikan seluruh hasil klasifikasi dari setiap base classifier yang membentuknya. [KHO06]
Untuk mengatasi kekurangan dari multi-classifiers, muncul penelitian yang melakukan eksplorasi terhadap delegating classifiers. Model delegating classifiers dibuat dengan motto ‘let others do the things that you cannot do well’. Di dalam penelitian [FER04], digunakan dua buah classifier. Pembelajaran kedua buah classifier ini dilakukan secara serial dengan menggunakan training set yang berbeda. Training set classifier kedua merupakan subset dari training set classifier pertama yang merupakan kumpulan data yang tidak ditangani dengan baik oleh classifier pertama. Saat proses klasifikasi dilakukan, sebuah fungsi delegasi akan menentukan classifier mana yang akan digunakan. [FER04]
I-3 Di dalam eksperimen yang dilakukan [FER04] terhadap 22 buah dataset yang berasal dari UCI (University of California Irvine) dataset repository. Eksperimen tersebut melakukan perbandingan antara delegating classifiers dengan multi-classifiers yang menggunakan bagging dan boosting. Algoritma pembelajaran yang digunakan dalam eksperimen tersebut adalah algoritma C4.5 yang terdapat di dalam WEKA. Hasil dari eksperimen tersebut menunjukkan bahwa delegating classifiers mempunyai nilai efektifitas yang tidak jauh berbeda dengan multi-classifiers. Sedangkan dalam nilai efisiensi, delegating classifiers mempunyai nilai efisiensi yang jauh lebih baik dibandingkan dengan multi-classifiers. Delegating classifiers juga dapat lebih dimengerti dan lebih sederhana daripada multi-classifiers. [FER04]
1.2 Rumusan Masalah Tugas akhir ini akan membuktikan apakah delegating classifiers memiliki efisiensi yang lebih baik daripada multi-classifiers dengan efektifitas yang hampir sama antara kedua classifier tersebut.
1.3 Tujuan Tujuan dari tugas akhir ini adalah melakukan eksplorasi delegating classifiers yang dilakukan dengan cara : 1. mengembangkan prototipe aplikasi yang dapat digunakan untuk mendukung eksperimen yang dilakukan. 2. membandingkan performansi delegating classifiers dengan single classifier dan multi-classifiers dari segi efisiensi yaitu waktu pembelajaran serta waktu pengetesan dan dari segi efektifitas yaitu rasio akurasi.
1.4 Batasan Masalah Batasan-batasan yang didefinisikan dalam tugas akhir ini adalah sebagai berikut. 1. Dataset yang digunakan berasal dari UCI (University of California Irvine) dataset repository.
I-4 2. Multi-classifiers yang diamati merupakan multi-classifiers yang menggunakan bagging dan boosting. 3. Algoritma yang digunakan untuk melakukan pembelajaran pada classifier adalah C4.5 yang terdapat di dalam WEKA. 4. Prototipe aplikasi dibangun dengan menggunakan library dari WEKA.
1.5 Metodologi Tahapan-tahapan yang dilakukan dalam tugas akhir ini adalah sebagai berikut: 1. Studi Pustaka Tahap studi pustaka dilakukan dengan cara melakukan kajian terhadap semua teori yang mendukung tercapainya tujuan tugas akhir. Kajian yang diperlukan meliputi kajian mengenai soft classifier, cautious classifier, delegating classifiers, dan multi-classifiers. 2. Analisis Pada tahap ini, dilakukan analisis terhadap pembangunan delegating classifiers. 3. Pembangunan Perangkat Lunak Dalam tahap ini dilakukan analisis, perancangan, dan implementasi perangkat lunak yang diperlukan untuk mendukung eksperimen yang dilakukan. 4. Eksperimen dan Interpretasi Hasil Eksperimen Pada tahap ini dijelaskan mengenai eksperimen yang dilakukan mencakup tujuan dan skenario, lingkungan eksperimen, dan interpretasi hasil eksperimen. Di dalam interpretasi hasil eksperimen, dilakukan perbandingan performansi delegating classifiers dengan single classifier dan multi-classifiers. 5. Analisis Hasil Eksperimen Dalam tahap ini dilakukan analisis terhadap data dan hasil eksperimen. Kemudian ditarik kesimpulan dari hasil yang didapatkan serta diberikan saran untuk pengembangan lebih lanjut.
1.6 Sistematika Pembahasan Pembahasan laporan tugas akhir ini terdiri dari lima buah bab dengan perincian sebagai berikut:
I-5 Bab I Pendahuluan, menguraikan mengenai latar belakang, rumusan masalah, tujuan, batasan masalah, metodologi, dan sistematika pembahasan.
Bab II Dasar Teori, membahas mengenai berbagai macam teori yang mendukung pembangunan delegating classifiers untuk kategorisasi data terstruktur menggunakan algoritma C4.5 meliputi estimasi akurasi classifier, algoritma C4.5, delegating classifiers, soft classifier, probability estimator tree, cautious classifier, multiclassifiers menggunakan bagging dan boosting.
Bab III Delegating Classifiers, membahas mengenai proses pembangunan delegating classifiers dengan menggunakan algoritma C4.5 secara mendetail meliputi perbandingan delegating classifiers dengan bagging dan boosting, pembangunan delegating classifiers, representasi decision tree, dan penentuan parameter C4.5.
Bab IV Eksperimen, membahas mengenai eksperimen yang dilakukan beserta hasilnya meliputi dataset dan kakas yang digunakan, skenario eksperimen, hasil eksperimen, dan analisa hasil eksperimen.
Bab V Penutup, membahas mengenai kesimpulan dan saran yang didapat dalam pengerjaan tugas akhir ini.