Seminar Nasional Teknologi 2007 (SNT 2007) Yogyakarta, 24 November 2007
ISSN : 1978 – 9777
PENGGUNAAN POHON KEPUTUSAN UNTUK MENGANALISIS KEMUNGKINAN PENGUNDURAN DIRI CALON MAHASISWA DI STMIK AMIKOM YOGYAKARTA Kusrini, Sri Hartati STMIK AMIKOM Yogyakarta, Universitas Gadjah Mada e-mail :
[email protected],
[email protected] ABSTRACT In STMIK AMIKOM Yogyakarta, it often happen that a student candidate who has been succeed in the admission test, cancel his/her application by disregarding the next phase of admission process (re-registration). If the withdrawal possibility arised can be detected early, then it is expected that the STMIK AMIKOM executive can make any attempt to keep the candidate proceeds through the admission process and subsequently, minimizes the rate of admission cancellation. An application to detect the possibility of application withdrawal has been built. The detection is based on the cases occurred in the past. The cases are searched and compared with the current case. In order to make the cases searching technically easier, an indexing is conducted in the form of a decision tree, and it is used to build the rule bases. The tree is built with C4.5 algorithm that is improvement from the predecessor ID3 algorithm. More than 1900 data records of new student applicants for 2006/2007 teaching season in STMIK AMIKOM Yogyakarta are used as a set of test case, the experimental results show that the applicants are categorized in registration, not registration and unknown, and result in 508 rules. Keywords : Decision Tree, C4.5 Algorithm, Aplicant registration.
1. Pendahuluan 1.1 Latar Belakang Masalah Dari jumlah 1954 calon mahasiswa yang diterima pada tahun 2006/2007 sebagai calon mahasiswa baru di STMIK AMIKOM Yogyakarta, 498 calon mahasiswa mengundurkan diri dengan cara tidak melakukan registrasi. 25,5 % calon mahasiswa yang mungkin potensial, tidak mampu dipertahankan oleh STMIK AMIKOM Yogyakarta. Jika kemungkinan pengunduran diri seorang calon mahasiswa baru, dapat diketahui lebih dini maka pihak manajemen STMIK AMIKOM Yogyakarta dapat melakukan tindakan-tindakan yang diperlukan untuk mempertahankan calon-calon mahasiswa tersebut. Salah satu cara untuk melakukan analisis kemungkinan pengunduran diri seorang calon mahasiswa baru adalah dengan melakukan klasifikasi dari kumpulan data calon mahasiswa yang ada. Salah satu model klasifikasi adalah dengan membuat pohon keputusan. Banyak algoritma dikembangkan untuk melakukan membuat pohon keputusan, diantaranya ID3, CART dan C4.5 (Larose, D.T., 2005).
D ‐ 1
Seminar Nasional Teknologi 2007 (SNT 2007) Yogyakarta, 24 November 2007
ISSN : 1978 – 9777
1.2 Perumusan Masalah Adapun masalah yang ingin diselesaikan dalam masalah ini adalah bagaimana cara membuat aplikasi untuk membantu manajemen STMIK AMIKOM dalam melakukan analisis kemungkinan pengunduran diri seorang calon mahasiswa dengan didasarkan pada kasus-kasus yang sudah ada. Dalam penelitian ini model yang akan digunakan untuk mendeteksi kemungkinan pengunduran diri seorang calon mahasiswa adalah dengan menerapkan algoritma C4.5. 1.3 Tujuan Penelitian Penelitian ini bertujuan untuk mengimplementasikan algoritma pembentukan pohon keputusan C4.5 dalam sebuah aplikasi yang dapat mendeteksi kemungkinan pengunduran diri seorang calon mahasiswa di STMIK AMIKOM Yogyakarta. Dengan adanya penelitian ini diharapkan kemungkinan seorang calon mahasiswa akan mengundurkan diri dari STMIK AMIKOM Yogyakarta dapat diketahui pada saat mahasiswa tersebut mendaftar, dengan demikian dapat dilakukan antisipasi oleh pihak STMIK AMIKOM Yogyakarta sehingga calon mahasiswa tersebut dapat dipertahankan.
2. Landasan Teori Pohon Keputusan (Decision Tree) merupakan metode klasifikasi dan prediksi yang sangat kuat dan terkenal. Metode pohon keputusan mengubah fakta yang sangat besar menjadi pohon keputusan yang merepresentasikan aturan. Aturan dapat dengan mudah dipahami dengan bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk bahasa basis data seperti SQL untuk mencari record pada kategori tertentu. Pohon Keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing-masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang lain (Berry, Michael J.A., Linoff, Gordon S., 2004) Sebuah model pohon keputusan terdiri dari sekumpulan aturan untuk membagi sejumlah populasi yang heterogen menjadi lebih kecil, lebih homogen dengan memperhatikan pada variabel tujuannya. Sebuah pohon keputusan mungkin dibangun dengan seksama secara maual, atau dapat tumbuh secara otomatis dengan menerapkan salah atu atau beberapa algoritma pohon keputusan untuk memodelkan himpunan data yang belum terklasifikasi. Variabel tujuan biasanya dikelompokkan dengan pasti dan model pohon keputusan lebih mengarah pada perhitungan probabilitas dari masing-masing record terhadap kategori-kategori tersebut, atau untuk mengklasifikasi record dengan mengelompokkannya dalam satu kelas. Pohon keputusan juga dapat digunakan untuk mengestimasi nilai dari variabel kontinue, meskipun ada beberapa teknik yang lebih sesuai untuk kasus ini. Banyak algotima yang dapat dipakai dalam pembentukan pohon keputusan antara lain ID3, CART dan C4.5 (Larose, T.D., 2005). Badriyah, T.(2006) membuat alat bantu klasifikasi dengan pohon keputusan untuk sistem pendukung keputusan. Algoritma yang digunakan adalah algoritma ID3. Alat bantu yang dibangun dalam penelitian yang dilakukan Badriyah telah berhasil membangun pohon keputusan dan aturan if-then untuk memecahkan permasalahan dalam sistem pendukung keputusan. D ‐ 2
Seminar Nasional Teknologi 2007 (SNT 2007) Yogyakarta, 24 November 2007
ISSN : 1978 – 9777
Algoritma C4.5 merupakan pengembangan dari algoritma ID3 (Larose, T.D., 2005). Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut: a. Pilih atribut sebagai root b. Buat cabang untuk masing-masing nilai c. Bagi kasus dalam cabang d. Ulangi proses untuk masing-masing cabang sampai semua kasus pada cabang memiliki kelas yang sama. Untuk memilih atribut sebagai root, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera dalam rumus 1 (Craw, S., ---). n
Gain( S , A) = Entropy ( S ) − ∑ i =1
| Si | * Entropy ( Si ) ..................................................... [rumus 1] |S|
Dengan : S
: Himpunan kasus
A
: Atribut
n
: Jumlah partisi atribut A
|Si|
: Jumlah kasus pada partisi ke i
|S|
: Jumlah kasus dalam S
Sedangkan penhitungan nilai entropy dapat dilihat pada rumus 2 berikut(Craw, S., ---): n
Entropy ( S ) = ∑ − pi * log 2 pi ..................................................................................... [rumus 2] i =1
dengan : S
: Himpunan Kasus
A
: Fitur
n
: Jumlah partisi S
pi
: Proporsi dari Si terhadap S
3. Analisis 3.1 Pemilihan Variabel Dari data-data yang ada dalam biodata calon mahasiswa baru, kolom yang diambil sebagai variabel keputusannya adalah kolom Registrasi, sedangkan kolom yang diambil sebagai variabel penentu dalam pembentukan pohon keputusan adalah kolom: NEM, JK, Sekolah, Jurusan, Gelombang, Pilihan1, Pilihan2, Catatan, Nilai, Agama, Jur_Lulus, Nama_Prop, Nama_Kab. Pemilihan variabel-variabel tersebut dengan pertimbangan bahwa jumlah nilai variabelnya tidak banyak sehingga diharapkan calon siswa yang masuk dalam satu klasifikasi nilai variabel tersebut cukup banyak. Misalnya jk (jenis kelamin) jumlah nilai variabelnya hanya 2 yaitu pria dan wanita, sehingga jumlah calon siswa yang berjenis kelamin pria/wanita cukup banyak. Semantara itu atribut seperti nama dan alamat tidak dipilih karena jumlah nilai variabelnya cukup besar. D ‐ 3
Seminar Nasional Teknologi 2007 (SNT 2007) Yogyakarta, 24 November 2007
ISSN : 1978 – 9777
3.2 Pra proses Pra proses yang dilakukan dalam penelitian ini adalah: 1. Mengelompokkan nilai nem 2. Mengelompokkan nilai nilai 3. Menterjemahkan nilai pilihan1, pilihan2 dan jur_lulus 4. Menterjemahkan nilai agama 4. Rancangan 4.1 Diagram Alir Data Aliran data dalam aplikasi ini ditunjukkan dalam Diagram Alir Data level 1 seperti tampak pada gambar 1
Gambar 1 Diagram Alir Data Level 1
4.2 Rancangan Basis Data Tabel-tabel yang dibutuhkan dalam pembuatan aplikasi ini dibagi menjadi dua kelompok, yaitu tabel yang dibuat saat pembangunan dan tabel yang dibuat saat aplikasi dijalankan.
Tabel-tabel yang dibuat pada saat pengembangan adalah sebagai berikut: 1. Tabel D_Atribut dengan kolom : nama_atribut, is_aktif, is_hasil, ket Atribut nama_atribut berisi nama variabel yang digunakan dalam aplikasi. Atribut Is_Aktif berisi ‘Y’ atau ‘T’ untuk menyatakan apakah variabel yang ada terpakai atau tidak. Atribut Is_Hasil berisi ‘Y’ atau ‘T’ untuk menyatakan apakah variabel merupakan variabel tujuan atau bukan. 2. Tabel Kasus dengan kolom : NEM, JK, Sekolah, Jurusan, Gelombang, Pilihan1, Pilihan2, Catatan, Nilai, Agama, Jur_Lulus, Nama_Prop, NamaKab, Registrasi Atribut-atribut yang ada dalam tabel kasus merupakan atribut-atribut yang terdaftar dalam tabel d_atribut.
D ‐ 4
Seminar Nasional Teknologi 2007 (SNT 2007) Yogyakarta, 24 November 2007
ISSN : 1978 – 9777
3. Tabel Tree, dengan kolom : Id_Node, node, nilai, induk dan is_atribut Atribut Id_Node berisi nomor urut node. Atribut Node berisi variabel yang terpilih sebagai node. Atribut Nilai berisi nilai variabel induk dari node pada record tersebut. Atribut Induk berisi variabel induk dari node pada record tersebut sedangkan Is_Atribut menyatakan apakah record tersebut merupakan daun (ujung dari tree) atau bukan. Tabel-tabel yang dibuat pada saat aplikasi dijalankan adalah sebagai berikut: 1. Tabel Kerja[0] s/d Kerja[n] dengan kolom : nama_Atribut dan gain 2. Tabel Sub_Kerja[0] s/d Sub_Kerja[n] dengan kolom nama_atribut, nilai, entropy, result_1 .. result_n, jml_kasus 5. Hasil Apikasi untuk menganalisis kemungkinan pengunduran diri calon mahasiswa STMIK AMIKOM Yogyakarta, diimplementasikan dengan menggunakan bahasa pemrograman Borland Delphi 6 dan Database Interbase. Ada 3 fasilitas utama dalam aplikasi ini yaitu fasilitas training, testing dan fasilitas untuk menampilkan daftar aturan. Proses training memiliki 3 sub proses yaitu pengelolaan variabel, pengelolaan kasus dan proses training itu sendiri.
Gambar 2 Antar muka testing Antar muka yang ditunjukkan pada gambar 2 digunakan untuk mencocokkan kasus baru dengan kasus lama, sehingga diperoleh klasifikasi yang sesuai dengan kasus lamanya. Tombol bertuliskan Next pada gambar 2 awalnya bertuliskan mulai. Ketika user mengeklik tombol tersebut maka sistem akan menuntun user untuk memasukkan nilai-nilai variabel sehingga diperoleh klasifikasi dari kasus tersebut. Untuk penerapan aplikasi pada kasus analisis calon mahasiswa di STMIK AMIKOM, kami memasukkan 1950 record data calon mahasiswa tahun ajaran 2006/2007 kedalam database kasus. Dari keseluruhan data tersebut 498 tidak registrasi dan sisanya melakukan registrasi. Dengan mengaktifkan variabel bukan tujuan: NEM, JK, Jurusan, Gelombang, Pilihan1, Catatan, Nilai dan Jur_Lulus diperoleh aturan sebanyak 508. Daftar aturan selengkapnya dapat dilihat pada lampiran 2. Dari aturan-aturan yang terbentuk, ada 2 kategori aturan yaitu aturan yang menghasilkan klasifikasi tertentu (registrasi/tidak registrasi) dan aturan yang kesimpulannya adalah tidak terklasifikasi. Contoh aturan kategori kedua adalah aturan 5 berikut: D ‐ 5
1
E x te r n a l b u s in e s s e n v iro n m e n t
Vi
2
3
I n te r n a l b u s in e s s e n v iro n m M e nis t
Seminar Nasional Teknologi 2007 (SNT 2007) Yogyakarta, 24 November 2007 5
ISSN : 1978 – 9777
JIKA NEM = 0 - 5 DAN Jurusan = IPA DAN Gelombang = Gelombang 1 DAN Nilai = 0 - 50 DAN Pilihan1 = D3 Manajemen Informatika DAN JK = Wanita DAN Catatan = Test DAN Jur_Lulus = D3 Manajemen Informatika MAKA tidak terklasifikasi
Aturan-aturan yang hasilnya adalah tidak terklasifikasi disebabkan oleh semua variabel yang terdefinisikan (NEM, JK, Jurusan, Gelombang, Pilihan1, Catatan, Nilai dan Jur_Lulus) sudah muncul dalam tree untuk suatu cabang, tetapi kasus belum bisa mengelompok dalam satu klasifikasi (Registrasi/tidak). Untuk kondisi kasus sesuai dengan aturan 5 berjumlah 2 record. Dari kedua record tersebut yang 1 masuk klasifikasi registrasi dan lainnya masuk klasifikasi tidak.
6. Kesimpulan Apikasi untuk menganalisis kemungkinan pengunduran diri calon mahasiswa STMIK AMIKOM sudah berhasil dirancang dan diimplementasikan. Aplikasi memiliki 3 fasilitas utama yaitu: 1. Training, digunakan untuk membentuk pohon keputusan 2. Testing, digunakan untuk mencari klasifikasi kasus baru berdasarkan pohon keputusan yang sudah terbentuk 3. Daftar Aturan, digunakan untuk menampilkan daftar aturan berdasarkan pohon keputusan yang telah terbentuk Dari pengujian terhadap 1950 data calon mahasiswa, terbentuk 508 aturan dengan klasifikasi hasil adalah tergistrasi, tidak dan tidak terklasifikasi. Jumlah aturan yang terbentuk sangat dipengaruhi oleh variabel yang dipilih dalam pembentukan pohon keputusan Daftar Pustaka Badriyah, T., Rahmawati, R. (2006). Alat Bantu Klasifikasi dengan Pohon Keputusan untuk Sistem Pendukung Keputusan, Proceedings: Seminar Nasional Aplikasi Teknologi Informasi 2006, Jurusan Teknik Informatika, Universitas Islam Indonesia Yogyakarta Berry, Michael J.A., Linoff, Gordon S. (2004). Data Mining Techniques For Marketing, Sales, and Customer RelationshipManagementSecond Edition, Wiley Publishing, Inc., Indianapolis, Indiana Craw,
S. (---). Case Based Reasoning : Lecture 3: CBR Case-Base www.comp.rgu.ac.uk/staff/smc/teaching/cm3016/Lecture-3-cbr-indexing.ppt
Indexing,
Larose , Daniel T. (2005). Discovering Knowledge in Data: An Introduction to Data Mining, John Willey & Sons. Inc
D ‐ 6