IMPLEMENTASI ALGORITMA ID3 (ITERATIVE DICOTOMIZER THREE) UNTUK KLASIFIKASI BANTUAN USAHA MIKRO KECIL MENENGAH (UMKM) JASA TELEMATIKA INDONESIA Mira Ridwanah, Eneng Tita Tosida, S.Tp., M.Si, Mulyati, M.Kom Email :
[email protected] Program Studi Ilmu Komputer FMIPA Universitas Pakuan
Abstrak Meningkatnya Usaha Mikro Kecil Menengah (UMKM) jasa telematika adalah potensi yang harus didukung untuk memiliki nilai kompetitif, terutama dalam menghadapi Masyarakat Ekonomi ASEAN (MEA). Tapi ada banyak kesulitan dalam menentukan keputusan untuk memberikan bantuan kepada UMKM yang benar-benar membutuhkan. Proses Klasifikasi kelayakan bantuan bagi Usaha Mikro Kecil Menengah (UMKM) Jasa Telematika Indonesia tidak didukung oleh label kelayakan, tanpa penentuan atribut prioritas, dan terdiri dari data campuran numerik - kategorik. Hal ini mengakibatkan proses penilaian berjalan lebih lambat dan kurang akurat. Tujuan dari penelitian ini adalah untuk mengembangkan model data mining kelayakan bantuan bagi UMKM jasa telematika Indonesia, melalui pemanfaatan data Sensus Ekonomi Nasional (Susenas). Uji validasi sistem menggunakan confusion matrix. Hasil dari data menggunakan 3 skenario berbeda. Skenario 21 atribut mendapat akurasi 99%, skenario 10 atribut mendapat akurasi 82% dan skenario dengan 4 atribut 58%. Dari skenario tersebut dapat disimpulkan bahwa skenario dengan 21 atribut yang paling baik tingkat akurasinya yaitu 99% tetapi memiliki kaidah yang terlalu banyak. Hasil menyebutkan bahwa sistem tidak mampu menampilkan kaidah yang terlalu banyak. Maka harus disederhanakan dengan seleksi atribut dan dipilihlah skenario 4 atribut karena skenario tersebut memiliki kaidah yang cukup ringan untuk di implementasikan kedalam sistem. Kata Kunci : Klasifikasi, Data mining, ID3(Iterative Dicotomizer Three), UMKM Penelitian terdahulu dilakukan oleh Tosida et al (2015). Penelitian tersebut mengembangkan visualisasi data UMKM tiap daerah oleh karena itu sistem ini perlu dikembangkan untuk menunjang pemilihan dalam pemberian bantuan pada UMKM jasa telematika. Hardiani (2015) melakukan clustering usaha kecil menengah jasa telematika Indonesia sesuai dengan data Sensus Nasional Badan Pusat Statistik tahun 2006 yang tersebar di seluruh wilayah di Indonesia, kedua penelitian tersebut masih belum bisa melakukan klasifikasi sehingga perlu untuk di kembangkan agar bisa menjadi model klasifikasi penerimaan bantuan pada UMKM jasa telematika.
Pendahuluan Telematika menjadi hal yang utama dalam tumbuhnya pembangunan dan ekonomi Indonesia saat ini. Meningkatnya Usaha Mikro Kecil Menengah (UMKM) telematika adalah potensi yang harus didukung untuk memiliki nilai kompetitif, terutama dalam menghadapi Masyarakat Ekonomi ASEAN (MEA). Tapi ada banyak kesulitan dalam menentukan keputusan untuk memberikan bantuan kepada UMKM yang benar-benar membutuhkan. Salah satu penyebabnya adalah banyaknya data serta standar kualifikasi untuk memutuskan kelayakan UMKM tersebut untuk diberikan bantuan (Tosida et al. 2015) . 1
Penelitian ini sudah menggunakan data yang telah melalui tahap praproses data sehingga data tersebut sudah bisa langsung di uji coba dengan algoritma yang akan digunakan. Model penilaian kelayakan bantuan UMKM jasa telematika ini memiliki karakter yang sama seperti yang sudah dilakukan Sucipto (2015) dengan penelitian penerapan data mining untuk memprediksi kriteria nasabah kredit menggunakan algoritma ID3 dan Adhatrao et al (2013) memprediksi penentuan kelulusan dengan algoritma yang sama. Pengembangan dari penelitian tersebut dilakukan dengan cara menentukan atribut class dan menerapkan data tersebut kedalam model klasifikasi menggunakan
algoritma ID3 (Iterative Dicotomizer Three) untuk membuat kaidah aturan kelayakan bantuan UMKM jasa telematika dan dalam pembuatan web penelitian ini menggunakkan framework Yii. Metode Penelitian Metode yang diterapkan pada klasifikasi ini menggunakan tahapan data mining atau disebut juga Knowledge Discovery and Data Mining (KDD) (Han et al. 2012). Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yang ditunjukan di Gambar 1. Tahap-tahap tersebut bersifat interaktif, pemakai terlibat langsung atau dengan perantaraan knowledge base.
Knowledge Evaluation and Presentation
40
60
90
70
30
Data Mining Pattern
Selection and Transformation
Data Warehouse Cleaning and Integration
Data
Data Flat Files
DataBase
Gambar 1. Tahap-Tahap Data Mining dari satu database tetapi juga berasal dari beberapa database atau file teks (Tosida et al 2015). 2. Selection and Transformation Data Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. Serta transformasi data adalah
1.
Cleaning and Integration Data Pembersihan data atau cleaning data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan. Serta Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal 2
Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. Untuk penelitian ini menggunakan metode entropy-based dalam melakukan seleksi data tersebut 3. Proses Mining Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data. Untuk proses mining dari data penelitian ini menggunakan algoritma ID3 untuk menentukan keputusan kelayakan menerima bantuan. 4. Evaluasi Pola (Pattern Evaluation) Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk memperbaiki proses data mining, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat. Evaluasi dari penelitian ini menggunakan confusion matrix. 5. Presentasi Pengetahuan (Knowledge Presentation) Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan yang diperoleh pengguna. Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusan atau aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak
memahami data mining. Karenanya presentasi hasil data mining dalam bentuk pengetahuan yang bisa dipahami semua orang adalah satu tahapan yang diperlukan dalam proses data mining. Dalam presentasi ini, hasil berupa grafik yang bermakna decision tree yang berisi beberapa kaidah atau rule diimplementasikan dalam bentuk sistem berbasis web. Pembersihan dan Integrasi Data Data sistem dari data set usaha jasa telematika diperoleh dari Susenas tahun 2006 terdiri dari 8798 UMKM jasa telematika dengan atribut sebanyak 21 atribut dan semuanya memiliki nilai kategorik. Data untuk klasifikasi ini telah mengalami tahapan praproses data mining seperti pembersihan dan intregasi data telah dilakukan pada penelitian sebelumnya yaitu oleh Tosida et al. (2015). Seleksi dan Transformasi Data Agar data lebih ringkas dan efektif dilakukan seleksi data atau atribut. Serta untuk proses transformasi data ini telah dilakukan oleh Tosida et al. (2015). Atribut ini diseleksi dengan metode filter Entropy-Based yaitu menseleksi Atribut yang memiliki nilai penting dalam proses mining ini menggunakan persamaan (1) ( ) ( )
3
∑ ( )
( )
flowchart untuk algoritma ID3. Ditunjukan pada Gambar 3. START
MASUKKAN DATA TRAINING
END HITUNG ENTROPY, DAN INFORMATION GAIN, DARI TIAP ATRIBUT
GENERATE RULE / ATURAN KEPUTUSAN YA
HITUNG ENTROPY, DAN INFORMATION GAIN DARI TIAP ATRIBUT UNTUK MEMBENTUK CABANG DARI SIMPUL AKAR
BUAT SIMPUL AKAR BERDASARKAN NILAI GAIN RATIO TERBESAR
SEMUA ATRIBUT SUDAH MASUK KEDALAM POHON ?
TIDAK
Gambar 3. Flowchart Algoritma ID3 Flowchart Sistem Berikut adalah flowchart sistem klasifikasi bantuan UMKM jasa telematika yang ditunjukan pada Gambar 4. START
HALAMAN INDEX
1. Klasifikasi 2.Lihat Rule 3. Data User 4. Lihat Data Tabel 5. Login / Logout
4 1
2
3
5
Input Data UMKM
Rule Algoritma ID3 UMKM
Admin ?
End
T
T List Data User
Admin ?
Input Username & Password
List Data Atribut
Y Y T
Decision Tree Algoritma ID3
Klasifikasi Search Valid Valid ?
T
Tidak Menerima Bantuan
Add
Edit
Delete
Search
Add
Edit
Delete Y
Input Keyword
Input Keyword
T
Y T
Ditemukan
Menerima Bantuan
Ditemukan
Y Data Ditemukan
Y Data Ditemuka n
DATA BASE UMKM
Gambar 4. Flowchart Sistem Klasifikasi
4
Status = Admin
kemudian diterapkan dalam framework yii dan database dirancang serta dibuat dalam aplikasi MySQL
Hasil Dan Pembahasan Hasil dari penelitian ini adalah bagaimana membuat model sistem klasifikasi bantuan usaha UMKM jasa telematika dengan menggunakan algoritma ID3 kemudian algoritma tersebut dieksekusi menggunakan aplikasi Rstudio dan menggunankan 80 % data latih dan 20 % data uji dari keselurahan 8798 data, sehingga menghasilkan decision tree untuk menentukan keputusan kelayakan suatu badan usaha untuk menerima bantuan.
Pembahasan 1. Seleksi Atribut Decision tree yang dihasilkan dari penelitian ini menghasilkan kaidah yang terlalu besar. Maka dari itu dilakukanlah generalisasi tiap atribut dan memangkas banyak atribut menjadi 10 atribut dengan seleksi fitur entropy-based yaitu dengan cara memilih entropy terbesar dari tiap atribut, berikut susunan peringkat atribut berdasarkan entropy-based menggunakan software Rstudio dan menggunakan persamaan (1) ditunjukan pada Tabel 1
Setelah didapatkan output berupa decision tree, rule atau kaidah dari decision tree tersebut diimplementasikan menggunakan adobe dreamweaver
Tabel 1. Peringkat Atribut Berdasarkan Nilai Entropy Peringkat Nama Atribut Nilai Penting 1 Kesulitan 2442,09 2 bentuk_badan_hukum 404,74 3 Penjualan 245,45 4 Kelompok.Usaha 206,17 Semakin besar nilai entropynya maka atribut tersebut sangat berperan penting dalam sistem klasifikasi ini dan juga perlu dilakukan seleksi atribut agar lebih memangkas decision tree menjadi
lebih ringkas namun mengurangi tingkat akurasi keputusan sekitar 10% hingga 20%. Berikut adalah deskripsi data yang telah di generalisasi dan di seleksi ditunjukan pada Tabel 2.
Tabel 2. Deskripsi data yang telah di seleksi No Atribut Tipe Rentang Nilai 1. Bentuk badan K 1. Sendiri 5. hukum 2. Firma 3. Ijin Khusus dari instansi terkait 4 Perorangan 2. Kelompok K 1. Jasa Telekomunikasi 3. Usaha 2. Konsultasi Hardware 4. 3. Penjualan K 1. Mikro 3. 2. Kecil 4. Kesulitan K 1 pemasaran 3. 2. lainnya
5
Yayasan
Konsultasi Software Lainnya Menengah permodalan
2. Proses Mining Proses mining data UMKM jasa telematika ini menggunakan algoritma ID3 dalam menentukan kelayakan badan usaha untuk menerima bantuan. Berikut ini adalah beberapa hasil percobaan dari
penelitian ini dengan menggunakan 3 skenario berbeda agar dapat diketahui tingkat akurasi dan banyaknya kaidah yang tercipta. Berikut ditunjukan pada Gambar 5, dan 6.
Nilai Akurasi Data Latih dari 3 Skenario akurasi
99% 82% 58%
4
10
21 (Tetap)
Atribut
Gambar 5. Chart Nilai Akurasi Data Uji Dari 3 Skenario Dan berdasarkan gambar 5 dipilihlah skenario dengan 4 atribut karena skenario tersebut memiliki kaidah yang ringan untuk diimplementasikan
kedalam sistem, tetapi akurasi yang didapat berkurang menjadi 58% pada data latih. Maka dipilihlah atribut tersebut dalam penelitian kali ini.
Nilai Akurasi Data Uji dari 3 Skenario
63%
4
Akurasi
26%
24%
10
21
Atribut Gambar 6. Chart Akurasi Data Uji Dari 3 Skenario
6
Bersarkan gambar 6 dapat disimpulkan bahwa skenario dengan 4 atribut adalah yang paling baik tingkat akurasinya yaitu 63% pada data uji dan memiliki kaidah yang paling banyak. Namun dikarenakan keterbatasan sistem dalam mengolah kaidah yang terlalu
banyak sehingga kaidah nya tidak muncul maka harus disederhanakan dengan seleksi atribut.
3. Evaluasi Pola Dalam evaluasi pola klasifikasi ini menggunakan metode confusion matrix dengan menggunakan persamaan (3) sebagai berikut. 1. Confusion Matrix Data Latih
Tabel 3. Hasil Summary Data Latih Menggunakan Aplikasi Rstudio. Klasifikasi a b Tidak menerima bantuan
True Positive (TP)
1786
Menarima bantuan
False 1177 True 2329 Negative Negative (FN) (TN)
Dari Tabel 3 Diketahui : a. True Positive (TP) = 1786 b. True Negative (TN) = 2329 c. False Positive (FP) = 1745
False Positive (FP)
1745
d. False Negative (FN) = 2329 e. Jumlah Data = 7098
Dari perhitungan diatas didapat tingkat akurasi kaidah yang dimiliki oleh klasifikasi ini adalah sesuai dengan data latih yang dimasukkan. 2. Confusion Matrix Data Uji
Tabel 4. Hasil Summary Data Uji Menggunakan Aplikasi Rstudio. Klasifikasi a b Tidak menerima bantuan
True Positive (TP)
0
Menarima bantuan
False 1123 True 638 Negative Negative (FN) (TN)
7
False Positive (FP)
0
Dari Tabel 4 Diketahui : f. True Positive (TP) = 0 g. True Negative (TN) = 1123 h. False Positive (FP) = 0
i. False Negative (FN) = 638 j. Jumlah Data = 1761
Dari perhitungan diatas didapat tingkat akurasi klasifikasi ini adalah % menggunakan data uji yang dimasukkan kedalam klasifikasi tersebut. TIDAK MENERIMA BANTUAN
4. Presentasi Pengetahuan Berikut adalah visualisasi decision tree dari skenario yang dipilih sebelumnya yaitu menggunakan seleksi 4 atribut dengan seleksi fitur entropybased. Di tunjukan pada gambar 7.
KONSULTAN HADWARE KONSULTAN SOFWARE LAINNYA
KELOMPOK USAHA
KECIL
MENENGAH
JASA TELEKOMUNIKASI
MENERIMA BANTUAN
KESULITAN
LAINNYA MIKRO
BENTUK BADAN HUKUM
PERORANGAN
PENJUALAN
IJIN KHUSUS, PERORANGAN, SENDIRI
TIDAK MENERIMA BANTUAN
KECIL Firma
KELOMPOK USAHA
Firma MENERIMA BANTUAN
KECIL MENENGAH
PENJUALAN
MENERIMA BANTUAN JASA TELEKOMUNIKASI, KONSULTAN HADWARE LAINNYA
TIDAK MENERIMA BANTUAN
KONSULTASI SOFTWARE
MENERIMA BANTUAN
MIKRO
TIDAK MENERIMA BANTUAN
TIDAK MENERIMA BANTUAN
MIKRO KECIL MENENGAH
KECIL
MENENGAH
TIDAK MENERIMA BANTUAN
JASA TELEKOMUNIKASI, LAINNYA
MENERIMA BANTUAN
MIKRO
KELOMPOK USAHA
KELOMPOK USAHA
JASA TELEKOMUNIKASI, KONSULTAN HADWARE KONSULTAN SOFWARE LAINNYA
KONSULTASI SOFTWARE
TIDAK MENERIMA BANTUAN
TIDAK MENERIMA BANTUAN
Gambar 7. Decision Tree Menggunakan 4 atribut dengan seleksi Atribut Gambar 7 menunjukkan bahwa bantuan akan diberikan kepada UMKM yang telah mengikuti kelompok usaha. Kondisi ini sesuai dengan Kemenkop UKM yang menyatakan bahwa bantuan akan diberikan kepada UMKM yang telah melakukan kelommpok usaha yang diselenggarakan oleh Kemenkop UKM tersebut. UMKM yang tidak mengikuti kelommpok usaha akan diproses kembali berdasarkan jasa telekomunikasi. Jika UMKM tersebut memiliki jasa telekomunikasi maka akan diberikan
bantuan, jika tidak maka UMKM tersebut diproses lagi berdasarkan rencana usahanya dan seterusnya. Decision tree tersebut kemudian diimplementasikan kedalam sistem berbasis web. Kesimpulan Implementasi algoritma ID3 untuk klasifikasi bantuan UMKM jasa telematika indonesia telah berhasil di rancang dan di bangun. Implementasi sistem ini menggunakan software RStudio untuk membangun algoritma ID3. Adobe Dreamweaver digunakan 8
untuk membangun halaman web dengan bahasa pemrograman PHP yang tersimpan dalam framework Yii. Framework yii itu sendiri memiliki kelebihan yaitu proses perancangannya cepat dan mudah, kemudian untuk desain menggunakan Bootstrap Template agar tampilan web menjadi responsive, serta perancangan database menggunakan MySQL. Tahap penelitian dimulai dengan analisis sistem yaitu melihat deskripsi data yang akan dijadikan data latih, perancangan basis data dilakukan dengan ERD (Entity Relationship Diagram) dan DFD (Data Flow Diagram). Basis model menjelaskan tentang alur dari algoritma ID3. Uji validasi sistem menggunakan confusion matrix. Jumlah keseluruhan data yang digunakan adalah 8798 data. Dan 2 kelas output (mendapat bantuan dan tidak mendapat bantuan). Data dibagi 2 yaitu 80% sebagai data latih dan 20% sebagai data uji. Hasil dari data menggunakan 3 skenario berbeda. Skenario 21 atribut mendapat akurasi 99% , skenario 10 atribut mendapat akurasi 82% dan skenario dengan 4 atribut 58%. Dari skenario tersebut dapat disimpulkan bahwa skenario dengan 21 atribut yang paling baik tingkat akurasinya yaitu 99% tetapi memiliki kaidah yang terlalu banyak. Hasil menyebutkan bahwa sistem tidak mampu menampilkan kaidah yang terlalu banyak. Maka harus disederhanakan dengan seleksi atribut dan dipilihlah skenario 4 atribut karena skenario tersebut memiliki kaidah yang cukup ringan untuk di implementasikan kedalam sistem. Sistem ini memiliki kegunaan sebagai klasifikasi kelayakan UMKM menerima bantuan menggunakan kaidah atau aturan yang telah dibuat serta menyimpan data klasifikasi beserta keputusannya.
Daftar Pustaka Adhatrao, et al. 2013. Predicting Students’ Performance Using ID3 and C4.5, Classification Algorithms memiliki tujuan untuk membuat aplikasi penentuan kelulusan siswa berdasarkan skor.Universitas Lampung, Lampung Hardiani, 2015. Implementasi Self Organizing Maps (SOM) untuk ClusteringUsaha Jasa Telematika Indonesia Menggunakan Matlab. Skripsi. Fakultas Matematika dan Ilmu Pengetahuan Alam, Universitas Pakuan, Bogor. Han J, Kamber M, Pei J. 2012. Data Mining : Concepts and Techniques. Third Edition. Morgan Kaufmann is an imprint of Elsevier, 225Wyman Street,Waltham, MA 02451, USA Sucipto, A. 2015. Prediksi Kredit Macet Melalui Perilaku Nasabah Pada Koperasi Simpan Pinjam Dengan Menggunakan Metode Algoritma Klasifikasi ID3. Fakultas Sains dan Teknologi, Universitas Islam Nahdlatul Ulama, Jepara Tosida, E. T. 2015. Pengembangan Model Data Mining Kelayakan Bantuan Usaha Bagi Usaha Mikro Kecil Menengah Jasa Telematika Indonesia. Tesis. Sekolah Pascasarjana Institut Pertanian Bogor, Bogor. Tosida, et al. 2015. Visualization model of small and medium enterprises (SMEs) telematics services potentiality map in Indonesia. Fakultas Matematika dan Ilmu Pengetahua Alam, Universitas Pakuan, Bogor.
9