APLIKASI PENDUKUNG KEPUTUSAN KLASIFIKASI KARYAWAN MUTASI WILAYAH MENGGUNAKAN ALGORITMA C4.5 (Study Kasus PT. Indosat)
Laporan Tugas Akhir Diajukan Untuk Melengkapi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Abdul Latif 41511120140 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER UNIVERSITAS MERCUBUANA JAKARTA 2014
http://digilib.mercubuana.ac.id/
http://digilib.mercubuana.ac.id/
http://digilib.mercubuana.ac.id/
KATA PENGANTAR Dengan mengucapkan puji syukur kepada Allah SWT, yang telah melimpahkan segala rahmat dan karunia-Nya, sehingga laporan tugas akhir ini telah dapat diselesaikan dengan baik. Dengan segala keterbatasan, penulis menyadari pula bahwa laporan Tugas Akhir ini tidak akan terwujud tanpa bantuan bimbingan dan dorongan dari berbagai pihak. Untuk itu, dengan segala kerendahan hati, penulis menyampaikan ucapan terima kasih kepada : 1.
Ibu Devi Fitrianah, S.Kom, M.T.I selaku pembimbing yang telah membimbing dalam penulisan Tugas Akhir ini.
2.
Bapak Sabar Rudiarto, S.Kom, M.Kom Ketua Program Studi Teknik Informatika.
3.
Ibu Umniy Salamah, ST., MMSI selaku Koordinator Tugas Akhir yang telah mengarahkan dalam pembuatan Tugas Akhir ini.
4.
Keluarga terutama orang tua saya dan adik-adik saya yang telah banyak memberikan dukungan moril dan materil khususnya.
5.
Keluarga besar Teknik Informatika Mercubuana, khususnya Kelas Karyawan angkatan 2012 yang selalu solid dalam pertemanan. Semoga dengan ini semua Allah SWT membalas kebaikan dan selalu mencurahkan hidayah dan
taufik-NYA, Amin.
Jakarta, 10 Oktober 2014
Penyusun
http://digilib.mercubuana.ac.id/
plikasi Pendukung Keputusan Klasifikasi Karyawan Mutasi Wilayah Menggunakan C4.5 (Study Kasus PT. Indosat) Abdul Latif, Devi Fitrianah Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Mercu Buana Jl. Raya Meruya Selatan, Kembangan, Jakarta 11650 Email:
[email protected], devi.
[email protected]
Abstract - Data mining is a technology that is very useful to help human resouces in telco company to support management decision maker. The problems faced by management is reviewing effectiveness of reorganization of management in its decision mutation or not the employee. Writing is about employee classification decision support applications mutations in the region of the freeway. classification models made by analyzing training data from Indosat employee data . The resulting model can then be used to predict the class of unknown data. Training data that has been entered class mutation is a mutation or not, it is intended that the training data can be reused in the process performance , this study calculates the performance of the C4.5 algorithm in performing data classification percentage of employees using precision, recall and accuracy. The measurement results show that the algorithm C4.5 has a better performance with the accuracy rate above 80% so that the results of the decision support system can consider precisely how the relocation employees or not . Keywords: Data mining, classification, C4.5
Abstrak - Data mining merupakan teknologi yang sangat berguna untuk membantu human resouces perusahaan telko untuk mendukung pengambilan keputusan manajemen. Masalah-masalah yang dihadapi manajemen adalah mereview efektifitas dari reorganisasi yang dilakukan manajemen dalam keputusan mutasi atau tidak nya karyawan. Penulisan ini berisi tentang aplikasi pendukung keputusan klasifikasi karyawan mutasi wilayah di indosat. model klasifikasi dibuat dengan cara menganalisis training data dari data karyawan indosat. Model yang dihasilkan nantinya dapat digunakan untuk memprediksi kelas dari unknown data. Data training yang dimasukan telah memiliki kelas apakah mutasi atau tidak mutasi, hal ini bertujuan agar data training dapat digunakan kembali pada proses kinerja, penelitian ini menghitung kinerja algoritma c4.5 dalam melakukan klasifikasi data karyawan menggunakan presentase precision, recall dan accuracy. Hasil pengukuran menunjukan algoritma c4.5 memiliki kinerja yang baik dengan tingkat accuracy rata-rata diatas 80 % sehingga hasil dari sistem dapat mendukung keputusan seberapa tepatnya mempertimbangkan mutasi atau tidak nya karyawan.
1. PENDAHULUAN 1.1 Latar Belakang Dunia bisnis telko yang penuh persaingan dan kompetitif membuat manajemen memandang perlu ada nya strategi bisnis yang harus dijalankan dengan adanya reorganisasi transformasi pada suatu organisasi struktur dimanejemen. Yaitu dengan adanya mutasi wilayah, dengan hal ini juga memberikan kesempatan positif kepada karyawan yang nantinya ditempatkan dilokasi baru untuk berkontribusi secara maksimal untuk perusahaan. Namun pihak manajemen mendapat kesulitan dalam menempatkan karyawan mutasi wilayah yang tepat dan sesuai dengan kebutuhan perusahaan pada setiap reorganisasi akan dilakukan. Diantaranya adalah karyawan mengajukan permohonan atas permintaan sendiri untuk mutasi yang mana permohonan tersebut belum dapat diberikan karena belum / tidak sesuai dengan kebutuhan manajemen perusahaan. Ini melahirkan kebutuhan adanya teknologi yang dapat membantu dalam pengaturan reorganisasi karyawan. Prediksi data karyawan dalam reorganisasi mutasi wilayah sangat penting bagi suatu perusahaan telko, dimana dengan adanya prediksi data karyawan, manajemen perusahaan dapat mengambil suatu keputusan atau strategi yang benar dan tepat bagi karyawan nya, data mining hadir sebagai solusi. Teknik data mining dapat dimanfaatkan untuk membantu pengambilan keputusan diwaktu yang akan datang. Salah satu teknik yang dapat dimanfaatkan dalam pengambilan keputusan yang tepat agar memenuhi aspek kebutuhan perusahaan tersebut adalah teknik klasifikasi dengan model pohon keputusan Aplikasi data mining ini memanfaatkan data masukan berupa data karyawan, dari data tersebut, akan di olah dengan metode klasifikasi dan untuk menganalisis data menggunakan teknik Pohon Keputusan. Setelah melewati proses tersebut, maka akan didapatnya pola-pola dalam pengambilan keputusan. Aplikasi data mining dengan Model Pohon Keputusan ini inputnya adalah data karyawan PT. indosat, sedangkan outputnya adalah prediksi karyawan mutasi dan tidak mutasi.
Keywords: Data mining, klasifikasi, C4.5
http://digilib.mercubuana.ac.id/
1.2
Rumusan Masalah Berdasarkan latar belakang masalah yang dijelaskan sebelumnya, maka yang menjadi rumusan masalah penelitian ini adalah : 1. Bagaimana cara mengklasifikasi mutasi karyawan menggunakan algoritma pohon keputusan C4.5? 2. Bagaimana perbandingan kinerja algoritma tersebut jika diukur dari sisi akurasi, presisi, dan recall? 1.3 Batasan Masalah Ruang Lingkup Tugas Akhir ini dibatasi pada : 1. Data training diperoleh dari PT. Indosat. 2. Kinerja algoritma diukur berdasarkan keakuratan hasil prediksi yang dinilai dari nilai akurasi, presisi, dan recall. 3. Atribut akan diseleksi sebelum diimplementasikan pada algoritma C4.5. 2. TINJAUAN PUSTAKA 2.1. Definisi Data Mining Data mining merupakan disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemukan pola dari suatu data. Data mining sering juga disebut knowledge discovery in database (KDD), adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan (Santosa, 2013). Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis data. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basis data (Kusrini, 2009). Pola dan aturan ini dapat digunakan untuk memandu pengambilan keputusan dan meramalkan efek keputusan. Data mining dapat mempercepat analisis dengan memusatkan perhatian pada variabel yang paling penting. Pada penelitian ini algoritma Model Pohon Keputusan digunakan untuk mengetahui hasil perhitungan data karyawan mutasi wilayah dengan kinerja algoritma di ukur berdasarkan hasil prediksi yang dinilai dari nilai akurasi, presisi, dan recall. Dalam arti yang lebih luas, Metode Pohon Keputsan adalah salah satu metode klasifikasi yang paling popular karena mudah untuk diinterpretasi oleh manusia. Konsep dasar algoritma ini adalah mengubah data menjadi pohon keputusan dan aturanaturan keputusan (rule). Pembangunan tree dimulai dengan data pada simpul akar (root node) yang dilanjutkan dengan pemilihan sebuah atribut, formulasi sebuah logical test pada atribut tersebut dan pencabangan pada setiap hasil dari test. Langkah ini terus bergerak ke subset ke contoh yang memenuhi hasil dari simpul anak cabang (internal node) yang sesuai melalui proses rekursif pada setiap simpul anak cabang. Langkahlangkah tersebut diulangi hingga dahan-dahan dari tree memiliki contoh dari satu kelas tertentu. Gambar 1 memuat contoh dari sebuah Pohon Keputusan.
Gambar 1. Decission Tree (Hermawati, 2013) 2.2.
Algoritma C4.5 Algoritma C4.5 adalah pengembangan dari algoritma ID3. Oleh karena pengembangan tersebut algoritma C4.5 mempunyai prinsip dasar kerja yang sama dengan algoritma ID3. Hanya saja dalam algoritma C4.5 pemilihan atribut dilakukan dengan menggunakan Gain Ratio dengan rumus:
Dimana: S = ruang (data) sample yang digunakan untuk training. A = atribut. Gain(S,A) = information gain pada atribut A SplitInfo(S,A) = split information pada atribut A Atribut dengan nilai Gain Ratio tertinggi dipilih sebagai atribut test untuk simpul. Dengan gain adalah information gain. Pendekatan ini menerapkan normalisasi pada information gain dengan menggunakan apa yang disebut sebagai split information. SplitInfo menyatakan entropy atau informasi potensial dengan rumus:
Dimana: S = ruang (data) sample yang digunakan untuk training. A = atribut Si = jumlah sample untuk atribut i Pada saat pembangunan pohon keputusan, banyaknya cabang mungkin mencerminkan adanya noise atau outlier pada training data. Pemangkasan pohon dapat dilakukan untuk mengenali dan menghapus cabang-cabang tersebut. Pohon yang dipangkas akan menjadi lebih kecil dan lebih mudah dipahami. Pohon semacam itu biasanya juga menjadi lebih cepat dan lebih baik dalam melakukan klasifikasi. Ada dua metode dalam melakukan pemangkasan dalam pohon keputusan, yaitu : a. Prepruning yaitu menghentikan pembangunan suatu subtree lebih awal, yaitu dengan memutuskan untuk tidak lebih jauh mempartisi data training. Pada pendekatan prepruning, sebuah pohon dipangkas dengan cara
http://digilib.mercubuana.ac.id/
menghentikan pembangunannya jika partisi yang akan dibuat dianggap tidak signifikan. b. Postpruning yaitu menyederhanakan pohon dengan cara membuang beberapa cabang subtree setelah pohon selesai dibangun. Metode postpruning ini merupakan metode standard untuk algoritma C4.5.
Gambar 2. Decision Tree sebelum dan setelah dipangkas Pemangkasan pohon juga dapat digunakan untuk mengatasi overfitting. Overfitting terjadi karena ada noise data training, yaitu data yang tidak relevan sehingga mengakibatkan pohon memiliki subtree yang panjang dan tidak seimbang. Misal internal node memiliki kelas YA = 5 dan TIDAK = 1. Data yang berada pada kelas TIDAK merupakan noise, sehingga apabila data tersebut diolah akan menghasilkan pohon dengan subtree yang panjang. Overfitting juga dapat terjadi karena data training yang sedikit 3. PERANCANGAN SISTEM 3.1. Analisis Sistem Berjalan Relokasi adalah Perpindahan lokasi / tempat kerja Karyawan dari suatu wilayah ke wilayah lain di indosat, namun pihak manajemen mendapat kesulitan dalam menempatkan karyawan mutasi wilayah yang tepat dan sesuai dengan kebutuhan perusahaan pada setiap reorganisasi akan dilakukan. Diantaranya adalah karyawan mengajukan permohonan atas permintaan sendiri untuk mutasi yang mana permohonan tersebut belum dapat diberikan karena belum / tidak sesuai dengan kebutuhan manajemen perusahaan. Use Case Diagram Use case diagram adalah suatu bentuk diagram yang menggambarkan fungsionalitas yang diharapkan dari sebuah sistem dilihat dari perspektif pengguna diluar sistem.
Gambar 3. Use Case Diagram Aktor dalam use case diagram ini adalah admin, dimana admin dapat melakukan keseluruhan proses di dalam aplikasi. Aktor Admin dapat melakukan: a. Manage data training, yaitu menambah, merubah, dan menghapus data training yang selanjutnya akan ditraining. Data training yang dimasukkan telah memiliki kelas apakah mutasi atau tidak mutasi, hal ini bertujuan agar data training dapat digunakan kembali pada proses kinerja. b. Proses mining, yaitu proses penambangan informasi dari data training dengan menggunakan algoritma C4.5 sampai terbentuk pohon keputusan dari masing-masing algoritma. c. Proses Kinerja, yaitu proses membandingkan pohon keputusan C4.5 yang telah dibentuk sebelumnya dengan data testing yang ada. Data testing yang sebelumnya memiliki kelas, diproses dengan rule pohon keputusan sehingga membentuk kelas baru, dari perbandingan kelas tersebut kemudian dapat dihitung nilai akurasi, presisi dan recall. d. Proses penentu keputusan, yaitu proses penentuan keputusan dari data baru yang akan dilakukan pencocokan pada rule pohon keputusan sehingga data tersebut memiiki kelas. 3.3.
Activity Diagram Activity diagram merupakan suatu diagram yang dapat menampilkan secara detail urutan proses dari aplikasi. Perancangan aplikasi dapat digambarkan dengan menggunakan activity diagram sebagai berikut: a. Activity Diagram Input Data Karyawan
3.2.
Gambar 4. Activity Diagram Input Data Karyawan Saat pertama kali membuka aplikasi, maka user akan langsung masuk ke halaman utama. Di halaman utama ini, user dapat memilih operasi yang diinginkan. Dengan memilih menu Data Karyawan, user dapat melakukan manajemen data karyawan yang meliputi penambahan data dengan memasukkan nilai-nilai atribut dan kelas pada form input data karyawan.
http://digilib.mercubuana.ac.id/
b. Activity Diagram Proses Mining Algoritma C4.5
merupakan algoritma yang digunakan untuk membentuk pohon keputusan Algoritma decision 4.1. Data yang Digunakan Data uji yang digunakan dalam penelitian ini adalah data karyawan yang berasal dari fungsi SDM indosat dengan melakukan wawancara dan observasi langsung untuk memperoleh data-data yang akurat demi terbentuknya sistem yang sesuai dengan kebutuhan. Data yang diperoleh ini nantinya akan menjadi kasus dalam proses operasional data mining, berikut field-field datanya : Tabel 1. Tabel field data karyawan
Gambar 5. Activity Diagram Proses Mining Algoritma C4.5 Setelah masuk halaman utama, user memilih menu C4.5. Dengan memilih proses mining, maka sistem akan memproses data training dan membentuk pohon keputusan menggunakan algoritma C4.5. Setelah itu, sistem akan menampilkan pohon keputusan beserta rule yang dibentuk. c. Activity Diagram Proses Perbandingan Kinerja Pohon Keputusan
Field
Type
Personnel_No
varchar(100)
Prev_PersNo
varchar(100)
Personnel_Number
varchar(100)
Job_Title
varchar(100)
Position_Name
varchar(100)
Directorate
varchar(100)
Chief
varchar(100)
Group
varchar(100)
Division
varchar(100)
Name_of_Organizational_Unit
varchar(100)
Personnel_Area_Text
varchar(100)
Lokasi
varchar(100)
Name_of_EE_Subgroup
varchar(100)
Gender_text
varchar(100)
Birthplace
varchar(100)
Lokasi_Baru
varchar(100)
married
varchar(20)
date_birth
varchar(20)
age
varchar(50)
tanggungan
varchar(10)
class
varchar(25)
status_data
varchar(25)
Gambar 6. Activity Diagram Proses Kinerja Setelah masuk halaman utama, user memilih menu Kinerja. Dengan melakukan proses kinerja, maka sistem akan memproses data testing menggunakan pohon keputusan C4.5 yang telah dibentuk sebelumnya, kemudian menghasilkan kelas baru. Setelah itu dilakukan perbandingan antara kelas data sebelumnya dengan kelas yang baru terbentuk. Lalu dilakukan perhitungan nilai presisi, recall dan akurasi.
4.2. Atribut yang Digunakan Berikut atribut yang digunakan dalam proses mutasi karyawan di PT Indosat, atribut data diperoleh dari keseluruhan data karyawan indosat: Tabel 2. Tabel Atribut 1
Job Title
4. HASIL DAN PEMBAHASAN Salah satu algoritma yang digunakan untuk membangun pohon keputusan yang berbasis algoritma induksi pohon keputusan yaitu C4.5. algoritma C4.5
http://digilib.mercubuana.ac.id/
-
Administrator Analyst Assistant Counsel Department Head Division Head Expert
2
Directorate
-
3
Chief
-
4
Personnel Area Text
5
Name of EE Subgroup
6
Gender
7
Married Status
9
Usia
10
Tanggungan pemohon
-
Group Head Officer Operator Secretary Senior Analyst Senior Auditor Senior Buyer Senior Counsel Senior Engineer Senior Officer Technician Directorate', 'Off. of Dir. & Chief Wholesale And Infr. Directorate', 'Office of Director & Chief Commercial Directorate', 'Office of Director & Chief Financial Directorate', 'Office of Director & Chief Technology Directorate', 'Office of Pres. Dir & Chief Executive Off. of Dir. & Chief Wholesale And Infr. Office of Chief Corporate Services Office of Chief Human Resources Office of Chief Strategy & Planning Office of Chief Tower Business Executive Office of Director & Chief Commercial Office of Director & Chief Financial Office of Director & Chief echnology Office of Pres. Dir & Chief Central - East Java Bali Nusra Head Quarter Jabodetabek & West Java Kalimantan – Sulampapua Sumatera Kontrak Percobaan Tetap Female Male Nikah Single Janda / Duda 20 – 35 tahun 36 – 50 tahun Diatas 50 Tahun K/1 K/2
-
K/3 S/0 S/1 S/2
Dari atribut tersebut dibuatlah sample data set sebanyak 100 field, data set kemudian dipartisi / dibagi menjadi dua kategori untuk perbandingan kinerja data mining, pertama data training dibagi menjadi (80%) dan data testing (20), kedua data training (50%) dan data testing (50%).
Gambar 8. Partisi Data Set 4.3. Perhitungan Mining C4.5 Hitung Entropy, Information Gain, Split Info dan Gain Ratio dari masing-masing atribut data training yang ada.
Gambar 9. Perhitungan C4.5 Dengan memperhatikan pohon keputusan pada gambar 9 diketahui bahwa pohon keputusan telah terbentuk. Dan setelah didapatkan tree akhirnya kemudian diubah menjadi rule. Berikut ini adalah bentuk tree yang diubah menjadi rule:
http://digilib.mercubuana.ac.id/
2. R e c a l l Recall adalah pengambilan data yang berhasil dilakukan terhadap bagian data yang relevan dengan query. Rumus Recall adalah :
Gambar 10. Perhitungan Pohon Keputusan C4.5 4.4.
Pengukuran Kinerja Algoritma Untuk permasalahan dalam klasifikasi, pengukuran yang biasa digunakan adalah precision, recall dan accuracy. Karena mutasi karyawan merupakan binary classification, maka precision, recall dan accuracy dapat dihitung dengan cara seperti pada Tabel 3.
Gambar 13. Grafik Recall Berdasarkan Data Testing (20%)
Tabel 3. Tabel Penilaian Diidentifikasi sebagai Diidentifikasi tidak mutasi sebagai mutasi Tidak Mutasi Mutasi
A C
B D
1. Precision Precision adalah bagian data yang di ambil sesuai dengan informasi yang dibutuhkan. Rumus precision adalah
Gambar 14. Grafik Recall Berdasarkan Data Testing (50%)
Dalam klasifikasi binari, recall disebut juga dengan sensitivity. Peluang munculnya data relevan yang diambil sesuai dengan query dapat dilihat dengan recall. 3. A c c u r a c y Accuracy adalah persentase dari total data ujicoba yang benar diidentifikasi. Rumus Accuracy adalah :
Gambar 11. Grafik Precision Berdasarkan Data Testing (20%)
Gambar 15. Grafik Accuracy Berdasarkan Data Testing (20%)
Gambar 12. Grafik Precision Berdasarkan Data Testing (50%)
http://digilib.mercubuana.ac.id/
Gambar 16. Grafik Accuracy Berdasarkan Data Testing (50%)
5.
KESIMPULAN Kesimpulan yang dapat diambil dari pembahasan di dalam jurnal ini adalah: 1. Klasifikasi data mining yang menghasilkan model rule pohon keputusan dapat memprediksi kelas dari objekobjek pada basisdata karyawan indosat. 2. Pengukuran kinerja sebuah algoritma data mining dari data testing dilakukan berdasarkan beberapa kriteria yang diuji coba antar lain Precision, Recall dan Accuracy. 3. Hasil dari kinerja data testing (20%) antara lain Precision : 88.24 %, Recall: 93.75 %, Accuracy : 84.21 %. 4. Hasil dari kinerja data testing (50%) antara lain Precision : 64.71 %, Recall: 94.50 %, Accuracy : 78.33 %. 5. Dengan tingkat accuracy adalah rata-rata diatas 80 % sehingga hasil dari sistem dapat mendukung keputusan seberapa tepatnya mempertimbangkan mutasi atau tidaknya karyawan. DAFTAR PUSTAKA 1. Hermawati Astuti, Fajar, 2013 Data Mining. Yogyakarta : Andi 2. Kusrini dan Emha Taufiq Lutfi. 2009. Algoritma Data Mining. Yogyakarta : Andi 3. Khairina, Indah. Penggunaan Pohon Keputusan untuk Data Mining, Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika. Bandung: 2013 4. Pramudiono, Iko. Pengantar Data Mining: Menambang Permata Pengetahuan di Gunung Data. http://www.ilmukomputer.com 5. Anonim, A Data Mining Glossary, http://www.thearling.com
http://digilib.mercubuana.ac.id/
http://digilib.mercubuana.ac.id/
http://digilib.mercubuana.ac.id/
http://digilib.mercubuana.ac.id/