Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012
IMPLEMENTASI TEKNIK DATA MINING CLASSIFICATION DENGAN METODE DECISSION TREE UNTUK MENENTUKAN TINGKAT KELULUSAN MAHASISWA Sudirman 1,2 Departement of Information Science, Faculty of Computer Science and Information Technology, University Mercu Buana, Jakarta, Indonesia 1 Departement of Information Science, Faculty of Computer Science and Information Technology, University of Malaya, Kuala Lumpur, Malaysia 2 E-mail :
[email protected] ABSTRAK Data mining merupakan proses analisis data dengan menggunakan perangkat lunak untuk menemukan satu pola dan aturan dalam himpunan data. Data mining mampu menganalisa data yang besar menjadi informasi berupa pola yang mempunyai arti bagi pendukung keputusan. Salah satu teknik yang ada pada data mining adalah classification yaitu proses untuk menentukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Dalam paper ini dilakukan suatu analisis data yang mengimplementasikan salah satu metode dalam classification yaitu decision tree dengan algoritma ID 3. Pengujian dilakukan terhadap sampel data mahasiswa pada Universitas Mercu Buana Jakarta. Evaluasi terhadap hasil analisis dari pengujian data yang dilakukan untuk menjelaskan output yang dihasilkan, berupa decision tree yang menggambarkan informasi dari set data. Hasil analisis bertujuan untuk memberikan masukan informasi yang akurat dan lebih baik kepada pembuat keputusan (decision making) untuk selanjutnya digunakan sebagai bahan untuk menentukan metode dan target dalam penentuan kelulusan mahasiswa. Kata kunci : Data mining , Classification, Decission Tree, ID3.
PENDAHULUAN Data mining merupakan disiplin ilmu baru dan sedang berkembang di dalam beberapa tahun terakhir ini seiring dengan perkembangan teknologi informasi dan komunikasi, teknologi data mining digunakan untuk menganalisa volume data yang besar menjadi popular saat ini. Data mining merupakan bidang ilmu yang multidisiplin, termasuk di dalamnya adalah system basis data, statistic, machine learning, visualisasi dan ilmu informasi. Selain itu, berdasarkan jenis datanya system data mining merupakan integrasi dari teknik-teknik lain seperti analisis data spasial, temu kembali informasi, pattern recognition, pemrosesan sinyal, grafika komputer, teknologi web, ekonomi, bisnis, bio informatika, atau psikologi [1]. Kehadiran data mining dilatarbelakangi dengan problema data explotion mahasiswa yang mengikuti kuliah di Universitas Mercubuana, Jakarta. Data Mining dapat melakukan klasifikasi terhadap data mahasiswa sesuai karakteristik yang diinginkan, seperti klasifikasi Fakultas, Program studi, Kelas dan karakteristik lainnya yang nantinya dapat menentukan jenis program yang akan dikembangkan berdasarkan analisis tingkat kelulusan mahasiswa.
ISBN : 978-602-97491-5-1 C-3-1
Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012
LANDASAN TEORI Data Mining Secara sederhana data mining adalah ekstraksi informasi atau pola yang penting atau menarik dari data yang ada di basisdata yang besar. Data mining juga dikenal dengan nama KDD (Knowledge Discovery in Database)[2]. Data mining menggunakan pendekatan discovery-based dimana pencocokan pola (patternmatching) dan algoritma-algoritma yang lain digunakan untuk menentukan relasi-relasi kunci di dalam data yang dieksplorasi. Data mining (penambangan data), sesuai dengan namanya, berkonotasi sebagai pencarian informasi bisnis yang berharga dari basis data yang sangat besar. Dengan tersedianya basis data dalam kualitas dan ukuran yang memadai, teknologi data mining memiliki kemampuan-kemampuan sebagai berikut : a. Mengotomatisasi prediksi trend an sifat-sifat bisnis. Data mining mengotomatisasi proses pencarian informasi di dalam basis data yang besar. b. Mengotomatisasi penemuan pola-pola yang tidak diketahui sebelumnya. Tools data mining “menyapu” basis data, kemudian mengidentifikasi pola-pola yang sebelumnya tersembunyi dalam satu sapuan. Contoh dari penemuan pola ini adalah analisis pada data penjualan ritel untuk mengidentifikasi produk-produk yang kelihatannya tidak berkaitan, yang seringkali dibeli secara bersamaan oleh customer. Classification Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari satu objek yang labelnya tidak diketahui [3]. Hal ini digambarkan sebagai berikut : Masukan Keluaran
Atribut (x)
Model Klasifikasi
Label kelas (y)
Gambar 1 : Klasifikasi memetakan atribut x ke dalam label kelas y
Masukkan data untuk klasifikasi adalah kumpulan record. Setiap record dikenal sebagai instance atau contoh yang ditandai oleh tuple (x,y), dimana x adalah attribut dan y adalah attribute khusus yang menunjukkan label kelas (disebut juga kategori atau atribut target). Information Gain Information gain adalah saah satu attribute selection measure yang digunakan untuk memilih test attribute tiap node pada tree. Atribut dengan information gain tertinggi dipilih sebagai test attribute dari suatu node, Misalkan S berisi s data sampel, Atribut Class memiliki M nilai yang berbeda, Ci (untuk I = 1,…1), anggap S i menjadi sampel S pada Class C I, Maka besarnya informationnya dapat di hitung dengan : m I (S1, S2…., SN) = ∑ p1 * log 2 (p1)………………………………. (1)
I=1 Dimana p1 = S1 adalah probalistik dari sampel yang mempunyai class Ci.
ISBN : 978-602-97491-5-1 C-3-2
Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012
Attribut A mempunyai v nilai yang tersedia, (a1, a2…an), dimana Sj berisi sampel pada s yang mempunyai nilai aj dari A, jika A terpilih menjadi test atribut (yaitu best atribut untu splinting), maka subset-subset akan berhubungan dengan pertumbuhan node-node cabang yang berisi S, Sy sebagai jumlah sampel class Ci pada subset Sj, Entropy atau nilai information dari subset A adalah : M Sij +…+ Smj I (A) = ∑ ────── I (S1, S2,….Sm)
J=1
dan Sij +…+ Smj …….(2)
s
s
Adalah bobot dari sumber jth dan jumlah sampel pada subset (yang mempunyai nilai aj dari A) dibagi dengan jumlah total sampel pada S. Untuk subset Sj. M I (S1j, S2j…..Smj) = - ∑ Py * log2 (Py)………………………………(3) J=1 Sy Dimana Py = ── adalah probabilitas sampel Sj yang mempunyai class Ci [Sj] Nilai Information Gain Attribut A pada subset S adalah.
Gain (A) = I ( S1, S2,… Sn ) – E (A)…………………………………...(4) Decision Tree Konsep klasifikasi dengan pengawasan (supervised classification) adalah untuk membangun sebuah model dari data yang telah diketahui, atau sering disebut sebagai classifier. Model atau fungsi ini kemudian dapat digunakan untuk memetakan data di dalam suatu basis data kepada suatu atribut target, selanjutnya dapat memperkirakan suatu kelas dari data yang baru [8]. Algoritma decision tree merupakan salah satu algoritma klasifikasi di dalam data mining yang bekerja berdasarkan teori informasi (information theory). Decision tree memiliki beberapa keunggulan yaitu mudah dalam pengembangan. Sebuah model, mudah dipahami oleh pengguna dan mampu menangani noisy data dan unknown data [3][6]. Decision tree classification memberikan label dan memasukkan record-record ke dalam kelas, sedang Regression tree digunakan untuk membuat estimasi nilai dari sebuah variabel target yang berdasar pada nilai numeric [5]. Decision tree terdiri dari beberapa bagian, yaitu simpul dalam (inside nodes), cabang (branches), dan simpul daun (leaf nodes). Simpul teratas disebut juga simpul akar (root nodes), simpul dalam merepresentasikan nilai dari suatu atribut. Contoh dari Decision tree dapat di lihat pada gambar 2. Age? <=30
No
31.. 40
Student?
Yes
Yes
No
>=40
Excellent
Yes
Credit_Ratin Fair g Yes
Gambar 2 : Decision Tree
ISBN : 978-602-97491-5-1 C-3-3
No
Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012
METODOLOGI Penerapan dari algoritma ID.3 untuk membangun pohon keputusan (decision tree). Cara kerja algorithma ini yaitu dengan memilih atribut yang terbaik untuk memisahkan data secara rekursif dan mengembangkan simpul daun pada tree sampai ditemui kriteria untuk berhenti, untuk mendapatkan decision tree yang terbaik, maka dilakukan perhitungan information gain dari setiap atribut untuk mendapatkan atribut yang akan menyediakan prediksi terbaik untuk target atribut kelulusan. TreeGrowth (B,C)
Ya Buat simpul daun
Stop
Temukan atribut terbaik dan temukan split terbaik pada atribut
Bagi data berdasarkan split
For setiap mahasiswa j pada simpul TreeGrowth(B_i, C_i)
Gambar 3 : Algorithma Induksi of Decision “3” (ID 3)
DATA PROCESSING Data yang digunakan dalam pengolahan data ini adalah sampel data mahasiswa Universitas Mercubuana, Jakarta. Tabel 1 : Sampel Data Mahasiswa Fakultas Fakultas Teknik (FT)
Program Studi Teknik Mesin
Kelas Reguler
Kelulusan Lulus
Fakultas Ekonomi (FE)
Manajemen
Karyawan
Tidak Lulus
Fakultas Psikologi (FP)
Konseling
Karyawan
Lulus
Fakultas Komunikasi (FIKOM)
Broad Casting
Reguler
Tidak Lulus
Fakultas Ilmu Komputer (FASILKOM)
Sistem Informasi
Karyawan
Lulus
Fakultas Teknik (FT)
Teknik Mesin
Reguler
Tidak Lulus
Fakultas Ekonomi (FE)
Manajemen
Karyawan
Lulus
ISBN : 978-602-97491-5-1 C-3-4
Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012
Tabel 1 : Sampel Data Mahasiswa (lanjutan) Fakultas Fakultas Psikologi (FP)
Program Studi Konseling
Kelas Karyawan
Kelulusan Tidak Lulus
FakultasKomunikasi (FIKOM),
Broad Casting
Reguler
Lulus
Fakultas Ilmu Komputer (FASILKOM)
Sistem Informasi
Reguler
Tidak Lulus
N… (500) Record
Dari sampel data pada tabel 1, dilakukan proses konversi ke nilai nominal, dengan memasukan atribut-atribut variabel. Spesifikasi dari karakteristik untuk setiap variabel yang digunakan dalam pengujian ditentukan seperti pada tabel 2 : Tabel 2 : Variabel Characteristik Sampel Data Variabel
Status
Type
Fakultas
Input
Nominal
Modalitas FT = 1 FE = 2 ……dst
Program Studi
Input
Nominal
Sistem Informasi = 1 Manajemen = 2 …….dst
Kelas
Input
Nominal
Keterangan Kelulusan
Target
Nominal
Reguler = 1 Karyawan = 2 Lulus = 1 Tidak Lulus = 2
Dengan menerapkan spesifikasi variabel, didapatkan konversi data ke bentuk nominal dari sampel data mahasiswa seperti pada tabel 3 : Tabel 3 : Sampel Data Bentuk Nominal dari Data Mahasiswa
Fakultas 1 1 1 1 2 3 2 2 5 4 3 4 1
Program Studi 1 2 1 1 2 2 1 1 1 2 2 1 2
Kelas 2 2 2 2 2 1 1 1 1 2 2 2 2
ISBN : 978-602-97491-5-1 C-3-5
Kelulusan 1 3 3 1 2 2 1 1 2 2 3 3 3
Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012
Berdasarkan Algoritma pada Gambar 3, untuk mendapatkan Decision tree yang terbaik (minimal), maka dilakukan perihitungan information gain dari setiap atribut untuk mendapatkan atribut yang akan menyediakan prediksi terbaik untuk target atribut kelulusan. Perhitungan Information Gain Level 1. Target atribut adalah Kelulusan yang memiliki Nilai LULUS atau TIDAK LULUS Atribut adalah Fakultas, Program Studi, Kelas. Jumlah data yang diteliti adalah 500 Record, dengan Prediksi LULUS 350 dan TIDAK LULUS 210, berdasarkan rumus (1) nilai informasinya adalah : I{350+, 210-I)= - 350 log2 350 - 210 log2 210 = 0,954 560 560 560 560 Informasi Gain Fakultas : Dengan menerapkan rumus (4), maka Informasi Gain dari setiap atribut : Values (Fakultas) = Fakultas Teknik (FT), Fakultas Ekonomi (FE), Fakultas Psikologi (FP), Fakultas Komunikasi (FIKOM), Fakultas Ilmu Komputer (FASILKOM) I FT = [125 +, 92 -] I FE = [49 +, 28 -] I FP = [51 +, 45 -] I FIKOM = [78 +, 25 -] I FASILKOM = [47 +, 20 -] Gain (I,Fakultas) = Entropy(I) - (217/560)Entropy(I FT) - (77/560)Entropy(I FE) – (96/560)Entropy(I FP) - (103/560)Entropy(I FIKOM) - (67/560) Entropy(I FASILKOM). = 0,954 – (217/560) 0,983 – (77/560) 0,945 – (96/560) 0,997 – (103/560) 0,799 – (67/560) 0,879 = 0,02017 Informasi Gain Program Studi : Values (Program Studi) = S. Informasi, Manajemen I S. Informasi = [240 +, 175 -] I Manajemen = [110 +, 35 - ] Gain (I,Program Studi) = Entropy(I) - (415/560)Entropy(I SI) - (145/560)Entropy(I MJN) = 0,954 – (415/560) 0,982 – (145/560) 0,797 = 0,00008 Informasi Gain Kelas : Values (Kelas) = Reguler, Karyawan I Reguler = [73 +, 45 - ], I Karyawan = [277 +, 165 - ] Gain (I,Kelas) = Entropy(I) - (118/560)Entropy(I Reguler) - (442/560)Entropy(I Karywan) = 0,954 – (118/560) 0,959 – (442/560) 0,953 = 0,00003 Hasil perhitungan Informasi Gain untuk ketiga atribut seperti pada tabel 4 : Tabel 4: Informasi Gain level 1
No
Atribut/Variabel
Nilai Informasi Gain
1 2 3
Fakultas Program Studi Kelas
0,02017 0,00008 0,00003
ISBN : 978-602-97491-5-1 C-3-6
Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012
Atribut Fakultas memberikan prediksi terbaik untuk target dari atribut kelulusan. Decision Tree yang terbentuk seperti berikut: [ 1,2,3,4…560 ] [ 350 + 210 ]
FT
FE
Program Std [125+,92-]
Universitas FP FIKOM
?
?
[49+,28-]
[51+,45-]
FASILKOM ?
? [78+,25]
[47+,20]
Gambar 4 : Decision Tree Level 1 untuk Tingkat Kelulusan
Perhitungan Information Gain Level 2. Untuk mendapatkan branch node (cabang simpul) pada level berikutnya, dilakukan lagi information gain dari atribut-atribut yang ada untuk mendapatkan prediksi terbaik bagi suatu branch node tertentu. 1. Berikut adalah perhitungan Nilai Information Gain untuk branch node [Fakultas = Fak. Teknik ] Informasi Gain Program Studi : Values (Program Studi) = Mesin, Elektro I Mesin = [87 +, 72 -], I Elektro = [38 +, 20 - ] Gain (I,Program Studi) = Entropy(IFT) - (159/217)Entropy(I Msn) - (58/217)Entropy(I Elk) = 0,983 – (159/217) 0,993 – (58/217) 0,929 = 0,00684 Informasi Gain Kelas : Values (Kelas) = Reguler, Karyawan I Reguler = [25 +, 16 - ], I Karyawan = [100 +, 76 - ] Gain (I,FT, Kelas) = Entropy(IFT) - (41/217)Entropy(I Reguler) - (176/17)Entropy(I Karyawan) = 0,983 – (41/217) 0,965 – (176/217) 0,987 = 0,00079 Hasil perhitungan Informasi Gain untuk kedua atribut seperti pada tabel 5 : Tabel 5 : Informasi Gain level 2
No
Atribut/Variabel
Nilai Informasi Gain
1 2
Program Studi Kelas
0,00684 0,00079
Atribut kelas memberikan prediksi terbaik pada level Branch Node [ Fakultas = FT ], sehingga decision tree adalah sebagai berikut.
ISBN : 978-602-97491-5-1 C-3-7
Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012
[ 1,2,3,4…560 ] [ 350 + 210 ]
FT
FE
KELAS
? [49+,28-]
Reguler
Universitas FP FIKOM
FASILKOM ?
?
? [51+,45-]
[78+,25]
[47+,20]
Karyawan
[40+,60-]
[50+,17-]
Gambar 5 : Decision Tree Level 2 untuk tingkat kelulusan pada Fakultas Teknik
2. Berikut adalah perhitungan Nilai Information Gain untuk branch node [Fakultas = Fak. Ekonomi ] Informasi Gain Program Studi : Values (Program Studi) = Manajemen, Akutansi I Mnj = [43 +, 23 -] , I Akt = [6+, 5 - ] Gain (I,Program Studi) = Entropy(IFE) - (66/77)Entropy(I Mnj) - (11/77)Entropy(I Akt) = 0,946 – (66/77) 0,933 – (11/77) 0,994 = 0,00419 Informasi Gain Kelas : Values (Kelas) = Reguler, Karyawan I Reguler = [9+, 10 - ] , I Karyawan = [40 +, 18 - ] Gain (IFE, Kelas) = Entropy(IFe) - (19/77)Entropy(I Reguler) - (58/77)Entropy(I Karyawan) = 0,946 – (19/77) 0,998 – (58/77) 0,893 = 0,02632 Hasil perhitungan Informasi Gain untuk kedua atribut seperti pada tabel 6 : Tabel 6 : Informasi Gain level 2
No
Atribut/Variabel
Nilai Informasi Gain
1 2
Program Studi Kelas
0,00419 0,02632
Atribut Program Studi memberikan prediksi terbaik pada level Branch Node [ Fakultas = FE ], sehingga decision tree adalah sebagai berikut.
ISBN : 978-602-97491-5-1 C-3-8
Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012
[ 1,2,3,4…560 ] [ 350 + 210 ]
FT [125+,82-] ?
Universitas FE FP FIKOM [40+,25-] Prog Std
[35+, 36-]
?
?
? [51+,45-]
Reguler
FASILKOM
[78+,25]
[47+,20]
Karyawan [1+,0-]
Gambar 6 : Decision Tree Level 2 untuk tingkat kelulusan pada Fakultas Ekonomi
3. Berikut adalah perhitungan Nilai Information Gain untuk branch node [Fakultas = Fak. Psikologi / FP] Informasi Gain Program Studi : Values (Program Studi) = Industri, Konseling I Inds = [36 +, 40 -], I Kons = [15+, 5 - ] Gain (I,Program Studi) = Entropy(Ifp) - (76/96)Entropy(I Inds) - (20/96)Entropy(I Kons) = 0,997 – (76/96) 0,998 – (20/96) 0,811 = 0,03808 Informasi Gain Kelas : Values (Kelas) = Reguler, Karyawan I Reguler = [20+, 6 - ], I Karyawan = [31 +, 39 - ] Gain (IFP, Kelas) = Entropy(IFP) - (26/96)Entropy(I Reguler) - (70/96)Entropy(I Karyawan) = 0,997 – (26/96) 0,779 – (70/96) 0,990 = 0,06382 Hasil perhitungan Informasi Gain untuk kedua atribut seperti pada tabel 7 : Tabel 7 : Informasi Gain level 2
No
Atribut/Variabel
Nilai Informasi Gain
1 2
Program Studi Kelas
0,03808 0,06382
Atribut kelas memberikan prediksi terbaik pada level Branch Node [ Fakultas = FP ], sehingga decision tree adalah sebagai berikut.
ISBN : 978-602-97491-5-1 C-3-9
Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012
[ 1,2,3,4…560 ] [ 350 + 210 ] Universitas FE FP FIKOM [40+,25-] [61+,45-]
FT [125+,82-] ?
?
FASILKOM ?
?
Prog. Std
[78+,25] Reguler r [31+, 40-]
[47+,20]
Karyawan [16+,0-]
Gambar 7 : Decision Tree Level 2 untuk tingkat kelulusan pada Fakultas Psikologi
4. Berikut adalah perhitungan Nilai Information Gain untuk branch node [Fakultas = Fak. KOMUNIKASI / FIKOM] Informasi Gain Program Studi : Values (Program Studi) = Komunikasi, Broad Casting I Kom = [43+, 20 -], I BC = [35+, 5 -] Gain (I, Program Studi) = Entropy(IFikom) - (76/96)Entropy(I Kom) - (20/96)Entropy(I BC) = 0,799 – (63/103) 0,901 – (40/103) 0,543 = - 0,19469 Informasi Gain Kelas : Values (Kelas) = Reguler, Karyawan I Reguler = [12+, 7 -], I Karyawan = [66 +, 18 -] Gain (I Fikom, Kelas) = Entropy(I Fikom) - (19/103)Entropy(I Reguler) - (84103)Entropy(I Karyawan) = 0,799 – (19/103) 0,949 – (84/103) 0,750 = - 0,22586 Hasil perhitungan Informasi Gain untuk kedua atribut seperti pada tabel 8 : Tabel 8 : Informasi Gain level 2
No
Atribut/Variabel
1 2
Program Studi Kelas
Nilai Informasi Gain -
0,19469 0,22586
Atribut kelas memberikan prediksi terbaik pada level Branch Node [ Fakultas = FIKOM ], sehingga decision tree adalah sebagai berikut.
ISBN : 978-602-97491-5-1 C-3-10
Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012
[ 1,2,3,4…560 ] [ 350 + 210 ] Universitas FE FP FIKOM [40+,25-] [61+,45-]
FT [125+,82-] ?
?
FASILKOM ? [47+,20]
KELA S
? Reguler [31+, 15-] r
Karyawan [37+,10-]
Gambar 8 : Decision Tree Level 2 untuk tingkat kelulusan pada Fakultas Komunikasi
5. Berikut adalah perhitungan Nilai Information Gain untuk Branch node [Fakultas = Fak. ILMU KOMPUTER / FILKOM] Informasi Gain Program Studi : Values (Program Studi) = SISTEM INFORMASI, TEKNIK INFORMATIKA I SI = [31+, 20 -], I TI = [16+, 0 -] Gain (I,Program Studi) = Entropy(I FILKOM) - (51/67)Entropy(I SI) - (16/67)Entropy(I TI) = 0,879 – (51/67) 0,966 – (16/67) 0,000 = 0,14401 Informasi Gain Kelas : Values (Kelas) = Reguler, Karyawan I Reguler = [7+, 6 -], I Karyawan = [40 +, 14 -] Gain (I Filkom, Kelas) = Entropy(I Filkom) - (13/67)Entropy(I Reguler) - (54/67)Entropy(I Karyawan) = 0,879 – (13/67) 0,996 – (54/67) 0,826 = 0,02083 Hasil perhitungan Informasi Gain untuk kedua atribut seperti pada tabel 9 : Tabel 9 : Informasi Gain level 2
No
Atribut/Variabel
Nilai Informasi Gain
1 2
Program Studi Kelas
0,14401 0,02083
Atribut Program Studi memberikan prediksi terbaik pada level Branch Node [ Fakultas = FASILKOM], sehingga decision tree adalah sebagai berikut. [ 1,2,3,4…560 ], [ 350 + 210 ] Universitas FE FP FIKOM [40+,25-] [61+,45-]
FT [125+,82-] ?
?
?
FASILKOM Prog. Std
? [47+,20-]
Reguler [31+, 20-] r
Karyawan [16+, 0-]
Gambar 9 : Decision Tree Level 2 untuk tingkat kelulusan pada Fakultas Ilmu Komputer ISBN : 978-602-97491-5-1 C-3-11
Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012
Sampai pada tahap berikut, Branch Node selesai diproses yaitu pada Level 2, Node yang terbentuk dapat di lihat pada Gambar 10 : [ 1,2,3,4…560 ] [ 350 +, 210-] Level 1 FT
Level 2
FE
Universitas FP FIKOM
[125+,82-] [49+,28-]
[51+,45-]
Prg Std
Prg Std
Program Studi
FASILKOM [78 +,25]
[47+,20-]
Prg Std
Prg Std Reguler
Reg/Ka r[40+, 60-]
Reg/K [50+,ar 17-]
Reg/K ar [37+, 15-]
Reg/K ar [35+, 28-]
[1+, 0-]
r
Karyawan
[13+,0-]
Gambar 10: Decision Tree Level 1 dan Level 2
Demikian tahapan ini dilakukan terus untuk mendapatkan Branch Node level-level berikutnya sampai terbentuk pohon keputusan (Global Decision Tree) yang terbaik yang akan memperlihatkan informasi tentang hubungan antara keseluruhan atribut yang terdapat pada sampel Data Mahasiswa berdasarkan tingkat kelulusan. KESIMPULAN DAN SARAN Data mining Classification dengan metode decision tree memberikan hasil analisis yang baik mengenai hubungan antara satu variable dengan variable lainnya yang ditentukan berdasarkan tingkat kelulusan mahasiswa. Melalui teknik data mining yang digunakan, paper ini telah berhasil mengumpulkan dan menganalisa data kelulusan siswa, dan menghasilkan beberapa rules yang dapat digunakan pihak Universitas dalam pengambilan keputusan di bidang pendidikan, khususnya dalam menganalisa tingkat kelulusan mahasiswa tiap Fakultas, program studi, maupun kelas. Penelitian lanjutan hendaknya dilakukan dengan menggabungkan Metode Decision Tree dengan metode lain seperti Association rules, Bayesian, Neural Network (NN) dan Sopport Vector Machine (SVM). Kuantitas data yang dilibatkan juga perlu ditambah,sehingga mampu memberikan hasil yang lebih signifikan. DAFTAR PUSTAKA [1] Dong Peng, Y., et al., Application of Data Mining Methods in the Evaluationof Client Credibilty, Application of Data Mining in E-Business and finance, 105 Press 2008. PP. 35-43 [2] Dunham, H. Margareth, 2002, Data Mining : Introduction and Advanced, Prentice Hall [3] Han, J., et al., 2006, Data mining : Concepts and Techniques 2nd Edition, Morgan Kaufman Publisher. [4] Indah. 2009. [online] Tersedia : www.indahmuhariani.com /index [5] Santoso, Budi, 2007, Teknik Pemanfaatan Data untuk Keperluan Bisnis, Graha Ilmu, Yogyakarta
ISBN : 978-602-97491-5-1 C-3-12
Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012
[6] Sekaran, 2003, Research Methods for Business, John Wiley and Son Inc. [7] Kusuma Dewi,, Sri, 2003, Artificial Intelegence (Teknik dan Aplikasinya), Graha Ilmu, Yogyakarta. [8]
W More, Andrew, 2002, http://www.cs.cmu.edu
Decision
.
ISBN : 978-602-97491-5-1 C-3-13
Trees,
Carnegie
Mellon
University,