Jurnal Penelitian Sitrotika, 2011, Volume 7 Nomor 1, ISSN: 1693-9670
PENERAPAN DECISION TREE UNTUK PENENTUAN POLA DATA PENERIMAAN MAHASISWA BARU Aradea, Satriyo A., Ariyan Z., Yuliana A. Teknik Informatika Universitas Siliwangi Tasikmalaya Ilmu Komputer Universitas Diponegoro Semarang
Abstrak Penerimaan mahasiswa baru (PMB) adalah proses penyaringan calon mahasiswa yang diterima pada suatu perguruan tinggi. Mengidentifikasi pola dari PMB dapat memberikan informasi yang bermanfaat baik kepada perguruan tinggi dalam hal ini program studi atau calon mahasiswa yang mendaftar pada suatu program studi. Penentuan pola tersebut dapat dilakukan dengan model klasifikasi, model klasifikasi dibuat dengan cara menganalisis training data, model yang dihasilkan nantinya dapat digunakan untuk memprediksi kelas dari unknown data. Model klasifikasi dapat digambarkan dalam berbagai bentuk, salah satunya adalah dengan menggunakan Decision Tree. Dalam makalah ini akan dibahas model klasifikasi menggunakan Decision Tree dengan algoritma Interactive Dichotomicer 3 (ID3), untuk penentuan pola dari sebuah data PMB dengan mengacu pada parameter atribut yang digunakan pada saat calon mahasiswa tersebut mendaftar dan melaksanakan ujian masuk. Dari hasil pembahasan studi kasus didapatkan atribut yang berpengaruh pada penentuan pola data PMB terdiri dari tiga atribut, yaitu prioritas pilihan program studi, skor ujian masuk dan jurusan saat SMA. Kata Kunci : Data Mining, Model Klasifikasi, Decision Tree, Algoritma ID3, Penerimaan Mahasiswa Baru mahasiswa yang akan mendaftar pada
1. PENDAHULUAN Suatu
yang
suatu program studi, informasi tersebut
seharusnya dilakukan perguruan tinggi
dapat dijadikan dasar untuk pemilihan
pada saat melakukan PMB, yaitu dengan
program studi dengan informasi kriteria
mengidentifikasi pola dari data PMB
penilaian suatu program studi terhadap
yang
calon mahasiswanya.
sudah
hal
penting
dilaksanakan,
dengan
melakukan klasifikasi dari paramenter
Klasifikasi
adalah
suatu
atribut yang ditentukan. Informasi yang
fungsionalitas yang akan menghasilkan
dapat
dari
model yang mampu memprediksi kelas
penentuan pola tersebut dapat dijadikan
atau kategori dari objek-objek. Dalam
dasar penentuan kebijakan sistem PMB
permsalahan
yang akan datang untuk kriteria penilaian
digunakan oleh suatu program studi
calon mahasiswanya. Informasi yang
untuk menentukan atau mengidentifikasi
dihasilkan juga bermanfaat bagi calon
pola
diterima
program
studi
dari
ini
data
klasifikasi
PMB
yang
dapat
sudah
Jurnal Penelitian Sitrotika, 2011, Volume 7 Nomor 1, ISSN: 1693-9670
dilaksanakan. Pada kasus ini model
besarnya kebutuhan akan nilai tambah
klasifikasi dibuat untuk mengidentifikasi
dari database dengan skala besar. DM
pola data untuk kelas status “diterima”
adalah
atau
“tidak
diterima”,
dari
hasil
serangkaian
menggali
nilai
penentuan pola training data. Pola atau
pengetahuan
model
diketahui
dari
training
data
tersebut
proses
untuk
tambah
berupa
yang selama ini
secara manual
tidak
dari suatu
selanjutnya diuji dengan menggunakan
kumpulan data. DM memiliki hubungan
test
dari
set
data.
klasifikasi
Singkatnya
dibuat
dengan
Model
bidang
ilmu
seperti
artificial
cara
intelligent, machine learning, statistik
menganalisis training data (terdiri dari
dan database. Beberapa teknik DM
variable variabel yang kelasnya sudah
antara lain: clustering, classification,
diketahui).
Model
association rule mining, neural network,
kemudian
akan
yang
dihasilkan
digunakan
untuk
genetic algorithm dan lain-lain.
memprediksi kelas dari unknown data (variable-variabel yang kelasnya belum
Proses Data Mining
diketahui), test set data digunakan untuk
DM dapat dibagi menjadi beberapa tahap
pengujian
yang diilustrasikan pada Gambar 1
dari
model
yang
telah
didapatkan pada training data. Model klasifikasi yang digunakan dalam kasus ini adalah Decision Tree. Perangkat lunak bantu
yang
implementasi
digunakan adalah
WEKA
untuk 36.2.
Diharapakan dengan dilakukannya model klasifikasi
ini
program
studi
akan
menemukan pola dari data PMB yang sudah dilaksanakan, sebagai dasar untuk penentuan kebijakan bagi PMB yang akan datang.
Gambar 1 Tahapan Data Mining Klasifikasi
2. LANDASAN TEORI Data Mining Data Mining (DM) adalah salah satu bidang yang berkembang pesat karena
Klasifikasi
adalah
proses
untuk
menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk
Jurnal Penelitian Sitrotika, 2011, Volume 7 Nomor 1, ISSN: 1693-9670
dapat memperkirakan kelas dari suatu
digunakan
objek yang labelnya tidak diketahui.
Decision
Tree
Model itu sendiri bisa berupa aturan
informasi
berdasarkan
“jika-maka”,
merupakan sistem pengukuran statistik.
berupa
decision
tree,
untuk
membangkitkan
yang
mendapatkan entropy
yang
formula matematis atau neural network.
Sample data yang digunakan oleh
Proses classification biasanya dibagi
ID3 memiliki beberapa syarat, yaitua
menjadi dua fase: learning dan test. Pada
tribut yang sama harus mendeskripsikan
fase learning, sebagian data yang telah
tiap contoh dan memiliki jumlah nilai
diketahui kelas datanya
diumpankan
yang sudah ditentukan. Pemillihan atribut
perkiraan.
pada ID3 dilakukan dengan properti
Kemudian pada fase test model yang
statistik, yang disebut dengan information
sudah terbentuk diuji dengan sebagian
gain. Gain mengukur seberapa baik suatu
data lainnya untuk mengetahui akurasi
atribut memisahkan training example ke
dari model tersebut. Bila akurasinya
dalam kelas target.
mencukupi model ini dapat dipakai untuk
informasi tertinggi akan dipilih. Dengan
prediksi kelas data yang belum diketahui.
tujuan
untuk
membentuk
model
untuk
Atribut
dengan
mendefinisikan
gain,
pertama-tama digunakanlah ide dari teori informasi yang disebut entropi. Entropi
3. METODOLOGI Metode yang digunakan untuk menangani bertujuan
permasalahan untuk
yang
ada
mengukur jumlah informasi yang ada pada atribut. Rumus entropi adalah:
memperlihatkan
bagaimana sebuah model data mining dapat
digunakan
untuk
membantu
Rumus untuk menghitung gain adalah:
mengetahui pola Penerimaan Mahasiswa Baru (PMB) di salah satu Program Studi berdasarkan
Setelah mendapatkan informasi
atribut-atribut dari data mahasiswa yang
dari semua atribut yang dihitung, atribut
mendaftar pada program studi tersebut.
dengan information gain tertinggi dipilih
X di Perguruan Tinggi Z
Dari berbagai model klasifikasi
sebagai atribut node awal (root node)
yang ada digunakan model Decision
serta cabang-cabangnya di buat sesaui
Tree,
nilai-nilai kemungkinan. Proses ini terus
yaitu
dengan
menggunakan
algoritma Iterative Dichotomiser 3 (ID3) merupakan
sebuah
metode
yang
berulang sepanjang/ pada setiap cabang
Jurnal Penelitian Sitrotika, 2011, Volume 7 Nomor 1, ISSN: 1693-9670
e) Prioritas pilihan Program Studi.
4. HASIL DAN PEMBAHASAN
Attribut ini dibagi menjadi 3 label,
Arsitektur Sistem Pada makalah ini, data yang digunakan
merupakan
data
yaitu :
calon
1. Pilihan 1.
mahasiswa yang mendaftar pada suatu
2. Pilihan 2.
program studi di Universitas X. Jumlah
3. Pilihan 3.
data yang diproses adalah 1458 sampel
f) Skor ujian masuk.
data. Yang dibagi kedalam 7 attribut
Attribut skor ujian masuk dibagi
Atribut-atribut tersebut adalah :
menjadi 4 label, yaitu :
a) Jurusan pilihan.
1. Skor ujian < 25.
Dibagai kedalam 2 label, yaitu :
2. Skor ujian >= 25 dan <50.
1. Ilmu Pengetahuan Sosial (IPS)
3. Skor ujian >= 50 dan <75.
2. Ilmu Pengetahuan Campuran (IPC).
4. Skor ujian >= 75 dan <=100.
b) Jurusan sewaktu SMA.
g) Status diterima atau tidak diterimanya
Attribut jurusan sewaktu SMA dibagi
siswa tersebut.
menjadi 3 label, yaitu :
Attribut ini dibagi menjadi 2 label,
1. Ilmu Pengetahuan Alam (IPA).
yaitu :
2. Ilmu Pengetahuan Sosial (IPS).
1. Diterima
3. Kejuruan.
2. Tidak diterima.
c) Daerah asal.
Dari total sampel yang digunakan
Attribut daerah asal siswa dibagi
kemudian dibagi menjadi 2 subset, subset
menjadi 5 label, yaitu :
1 untuk training dengan jumlah sampel
1. Banten.
data 972 dan subset 2 untuk testing
2. DKI.
dengan jumlah sampel data 486.
3. Jawa Barat. 4. Jawa Tengah. 5. Jawa Timur. d) Rata-rata nilai Ujian Nasional (UN).
Pembahasan Penelitian ini menggunakan data sejumlah 1.458 yang dibagi menjadi dua
Attribut rata-rata nilai UN dibagi
subset yaitu :
menjadi 3 label, yaitu :
1. S1 = 972 data sebagai training set
1. Rataan < 6.
2. S2 = 486 data sebagai test set
2. Rataan >= 6 dan < 8
Dengan metode yang digunakan, maka
3. Rataan >= 8 dan <= 10.
perhitungan entropi dan nilai information
Jurnal Penelitian Sitrotika, 2011, Volume 7 Nomor 1, ISSN: 1693-9670
gain masing-masing variabel dengan
pertaman.
Sehingga
menggunakan data subset S1 (972 data)
Decision Treenya dapat dilihat pada
sebagai training set dapat dilihat pada
Gambar 2.
Tabel 1.
deskripsi
Pilihan Ke 3
2
1
Tabel 1. Entropi dan Information Gain
1
2
3
4
5
6
7
Jurusan Pilihan Jurusan SMA
Asal
Rataan
Pilihan Ke
Skor
Diterima
Nilai
Jml
Bandingan (0/1)
Entropi
2
854
514
340
0.970
3
118
98
20
0.657
GAIN
1
3 2
-0.675
Tidak Diterima
310
222
88
0.861
2
642
376
266
0.979
3
20
14
6
0.881
1
46
32
14
0.887
2
116
58
58
1.000
3
126
74
52
0.978
4
654
428
226
0.930
5
30
20
10
0.918
1
20
12
8
0.971
2
654
392
262
0.971
3
298
208
90
0.884
1
560
216
344
0.962
2
360
344
16
0.262
3
52
52
0
0.000
1
316
316
0
0.000
2
404
198
206
1.000
3
202
90
112
0.991
4
50
8
42
0.634
0
612
1
360
0.951
Berdasarkan hasil yang didapatkan pada tabel 1, maka sebagai langkah pertama variabel Pilihan Ke menjadi NODE pertama dalam Decision Tree karena memiliki nilai information gain paling tinggi. Pada langkah selanjutnya adalah menentukan NODE kedua dan seterusnya hingga Decision Tree didapatkan dengan perhitungan cara yang sama pada langkah
1
4
3
4
2 Diterima
Diterima
1
Tidak Diterima
Skor
Skor
Variabel
dari
Diterima
Tidak Diterima
Tidak Diterima Tidak Diterima
Jurusan SMA
1
3 2
-1.770 Tidak Diterima
NULL Diterima
Gambar 2. Decision Tree -3.762
-1.875
-0.273
-1.674
Keterangan Gambar Variabel Isi Jurusan [ 2 | 3 ] / [ IPS | IPC ] Pilihan Jurusan SMA [ 1| 2 | 3 ] / [ IPA | IPS | IPC ] Asal [ 1 | 2 | 3 | 4 | 5 ] / [ Banten | DKI | Jabar | Jateng | Jatim ] Rataan [1 | 2 | 3 ] / [ <6 | 6 – 8 | 8 – 10] Pilihan Ke [1|2|3] Skor [ 1 | 2 | 3 | 4 ] / [ 0 – 25 | 25 – 50 | 50 – 75 | 75 – 100 ] NULL Data tidak tersedia Berdasarkan terbentuk,
Decision
Tree
variabel-variabel
yang yang
berpengaruh pada penerimaan mahasiswa baru adalah : 1. Pilihan Ke (1 atau 2 atau 3) 2. Skor (1 atau 2 atau 3 atau 4) 3. Jurusan SMA (1 atau 2 atau 3) Variabel-variabel
yang
mempengaruhi diantaranya :
tidak
Jurnal Penelitian Sitrotika, 2011, Volume 7 Nomor 1, ISSN: 1693-9670
1. Jurusan pilihan (2 atau 3)
atribut yang ada, teridentifikasi bahwa
2. Asal (1 atau 2 atau 3 atau 4 atau 5)
atribut yang berpengaruh pada penentuan
3. Rataan (1 atau 2 atau 3)
status akhir dari data terdapat tiga atribut
Dalam aturan klasifikasi yang
yaitu atribut prioritas pilihan program
telah dilakukan dengan metode Decision
studi, skor ujian masuk dan jurusan saat
Tree menggunakan algoritma ID3 untuk
SMA. Hasil evaluasi dari data test set,
menghasilkan output dari penentuan pola
didapatkan
pada training data dan hasil evaluasi test
penentuan dari pola menunjukan hasil
set data digunakan perangkat lunak bantu
maksimal yaitu 100%, artinya setiap data
WEKA. Dan hasil yang diperoleh seperti
pada status akhir/ kelas tujuan semuanya
ditunjukan pada gambar 3.
terpasang confusion
bahwa
dengan matrix
nilai
keakuratan
benar.
Dari
data
data
test
set
menunjukan nilai klasifikasi sesuai dan tidak terdapat kesalahan klasifikasi yaitu a = 306 data dan b= 108 data untuk total 486 data tes set.
5. KESIMPULAN Penentuan pola data PMB pada pembahasan studi kasus penelitian ini dapat
diidentifikasi
dengan
model
klasifikasi menggunakan model Decision Tree
dengan
algoritma
ID3.
Dari
pembahasan studi kasus pada penelitian ini klasifikasi yang dilakukan mengacu pada enam atribut data PMB, dan setelah melakukan
pengolahan
atribut
yang
berpengaruh pada penentuan pola untuk mendapatkan status data final hanya diperoleh tiga atribut saja yaitu : prioritas Gambar 3. Output Decision Tree.
pilihan program studi, skor ujian masuk
Pada gambar 3 output dari hasil
dan jurusan saat SMA. Akurasi hasil dari
pengolahan diketahui bahwa dari semua
studi kasus yang dibahas mencapai nilai
Jurnal Penelitian Sitrotika, 2011, Volume 7 Nomor 1, ISSN: 1693-9670
keakuratan yang maksimal yaitu 100%. Penelitian lanjutan perlu dilakukan untuk menambah cakupan atribut yang dapat dijadikan penentu peningkatan nilai dari status
akhir
data
yang
dibutuhkan,
misalnya dengan penambahan kelompok atribut dari atribut hasil atau skor test masuk, yang didekomposisi menjadi beberapa atribut baru, misalnya skor nilai kemampuan
verbal,
skor
kemampuan
kuantitatif,
kemampuan
logika,
skor
skor nilai
nilai nilai test
psikologis, dan lain lain.
DAFTAR PUSTAKA Ayu Purwarianti, (2010). Sistem Informasi Inteligen. Magister Informatika STEI ITB. Han, Jiawei, Micheline Kamber, (2006), Data Mining Concept and Techniques (2nd edition), Morgan Kaufmann Publish. Ian H. Witten, Eibe Frank,(2005), Data Mining : Practical Machine Learning Tools and Techniques, Second Edition, Morgan Kaufmann Publishers. Jian Wang Bo Yuan Wenhuang Liu. (2008). Application of Decision Trees in Mining High-Value Credit Card Customers. Proceedings of the 11th Joint Conference on Information Sciences. Q. Wang, Y. Wu, J. Xiao, and F. Guang, (2007). The Applied Research Based on Decision Tree of Data Mining In ThirdParty Logistics”, IEEE International Conference on Logistics, pp. 1540-1544.