HASIL DAN PEMBAHASAN
Praproses Data Tahap pertama yang dilakukan adalah menyeleksi seluruh data pada kedua dataset dengan memperhatikan keberadaan setiap record data pada keduanya. Jika terdapat record tertentu pada salah satu dataset namun record tersebut tidak terdapat pada dataset yang lain, maka record yang dimaksud akan dihapus karena record tersebut dinilai tidak konsisten. Pada Tabel 5 dan Tabel 6 di bawah ini berisi contoh ketidak-konsistenan data pada dataset mahasiswa dan dataset IPK. Tabel 5. Contoh data pada dataset mahasiswa NRP
NAMA
TGLHR
ALMHS1
KOTA
NMSLA
10/28/1981
Komp. Kopassus
Depok
SMU 105 Jkt
Delima I Blok K-3
Depok
SMUN 103
Depok
Jakarta
SMU Islam PB.Sudirman SMUN 97 Ciganjur
200502113
Ikrar Achmad B
200502114
Cindy Rahmawati
200502115
Dyah Andri M
1/4/1981
200502116
Siti Maesaroh
10/19/1981
200502117
Yanuar Tri P
200502118
Fransiskus Ony F
7/23/1982
Sukatani Cimanggis
1/8/1982
Pinang Kp. Baru
Jakarta
SMU Borobudur
2/23/1983
Laki Cimanggis
Bogor
SMUN I Cimanggis
Tabel 6. Contoh data pada dataset IPK I_NRP
I_THAK
I_SMT
I_IPS
I_JSKSS
I_IPK
I_JSKSK
200502113
0001
1
1.90
20
1.90
20
200502114
0001
1
2.00
16
2.00
16
200502116
0001
1
2.50
20
2.50
20
200502117
0001
1
2.00
14
2.00
14
200502118
0001
1
2.10
20
2.10
20
200502119
0001
1
1.70
20
1.70
20
Record dengan NRP=200502115 yang terdapat pada dataset mahasiswa tidak terdapat pada dataset IPK, maka record tersebut dihapus karena dinilai tidak konsisten keberadaan informasinya. Yang dilakukan selanjutnya adalah seleksi terhadap atribut dataset, dimana diketahui sebanyak 64 atribut terdapat pada dataset mahasiswa dan 7 atribut pada dataset IPK. Seleksi ini dilakukan untuk mendapatkan atribut-atribut
dengan nilai yang relevan terhadap status keaktifan studi mahasiswa sehingga untuk selanjutnya atribut-atribut yang dinilai berisi nilai yang tidak relevan tidak lagi disertakan dalam dataset. Di bawah ini disajikan contoh instances dengan beberapa atribut pada dataset mahasiswa seperti tampak pada Tabel 7. Tabel 7. Contoh instances dengan beberapa atribut pada dataset mahasiswa NoForm
NoUjiGel
NoUji
NRP
Nama
PilJur1
PilJur2
TglDft
TryOut
0049
30076
WIDYA SIST
311
511
3/30/2001
FALSE
0067
50013
M.ARYA NUG
511
512
4/3/2001
TRUE
0070
50016
ANDRI SUHA
512
502
4/3/2001
FALSE
0082
50005
BONDAN AND
511
414
4/4/2001
FALSE
0088
50026
SITI KOMAL
512
502
4/5/2001
FALSE
0097
30038
ASNIDA RAT
311
511
4/6/2001
TRUE
0120
5
ACHMAD DJO
502
4/10/2001
0122
5
EDO TIAS R
511
4/10/2001
0131
50039
IKA MARYAN
512
4/10/2001
FALSE
0147
50062
ANGELA RUS
512
4/12/2001
FALSE
112
NoForm, NoUjiGel, NoUji, NRP, Nama adalah atribut-atribut yang tidak digunakan dalam penelitian karena menjadi tidak relevan jika seorang mahasiswa berpotensi tidak aktif pada waktu yang akan datang ditentukan oleh atribut-atribut tersebut. PilJur1, PilJur2, TglDft dan TryOut dapat dipilih sebagai atribut dalam penelitian, namun tidak terdapat keterangan atau penjelasan yang berkaitan dengan atribut-atribut tersebut baik berupa nilai hasil ujian masuk, lama waktu yang disediakan untuk mendaftar pada setiap gelombang daftar, dan lembaga yang melaksanakan tryout serta kapan dilaksanakannya, maka atribut-atribut yang tertera pada tabel di atas tidak dipilih untuk digunakan dalam penelitian. Pada Tabel 8 di bawah ini, disajikan contoh instances dengan atribut pada dataset IPK. Tabel 8. Contoh instances dengan atribut pada dataset IPK I_NRP
I_THAK
I_SMT
I_IPS
I_JSKSS
I_IPK
I_JSKSK
201511027
0102
1
2.42
19
2.42
19
201511029
0102
1
1.59
17
1.59
17
201511030
0102
1
1.63
19
1.63
19
201511031
0102
1
1.68
19
1.68
19
I_NRP
I_THAK
I_SMT
I_IPS
I_JSKSS
I_IPK
I_JSKSK
201511048
0102
1
2.58
19
2.58
19
201511001
0102
2
2.62
21
2.75
40
201511003
0102
2
2.48
21
2.50
40
201511004
0102
2
2.71
21
2.85
40
201511005
0102
2
3.28
25
3.41
44
201511007
0102
2
2.83
23
2.90
42
Contoh dataset di atas digunakan untuk melihat prestasi akademik yang diperoleh oleh setiap mahasiswa pada tiap semester yang diambil. Atribut I_IPK adalah satu-satunya atribut yang dipilih karena dinilai sudah mewakili informasi prestasi akademik mahasiswa hingga saat masa akhir studi yang ditempuh. Pada sistem yang berjalan, masa studi yang telah ditempuh oleh setiap mahasiswa dapat dilihat pada atribut I_THAK, I_SMT dan I_JSKSK. Jika mahasiswa dengan NRP tertentu tidak muncul pada tahun akademik selanjutnya baik pada semester ganjil maupun genap maka mahasiswa tersebut dianggap tidak menyelesaikan masa studi yang harus ditempuh. Misal masa studi D3 adalah 7 semester dengan total sks 115 sks, namun mahasiswa yang dimaksud tidak melakukan registrasi pada tahun akademik dan semester yang sedang berjalan dan pada semester selanjutnya hingga masa studi yang berlaku dan total sks yang telah diambil lebih kecil atau sama dengan separuh dari total sks yang berlaku . Tahap seleksi atribut tidak hanya dilakukan untuk mendapatkan konsistensi dan relevansi isi dari atribut yang dimiliki namun juga dilakukan seleksi terhadap atribut yang mengandung missing value atau nilai yang hilang atau kosong, serta atribut yang mengandung data yang redudancy atau data yang duplikat. Jika ditemukan dalam kedua dataset terdapat atribut dengan nilai kosong atau missing value ataupun atribut dengan data yang redudancy, maka data tersebut dihapus, demikian halnya seperti seleksi yang dilakukan sebelumnya terhadap atribut-atribut dalam dataset. Hal ini dilakukan karena atribut yang missing value tidak
memberikan
informasi apapun jika dipertahankan
keberadaannya, demikian pula dengan atribut yang redundancy, maka cukup dipilih salah satunya saja dari data yang redundant karena data tersebut berisi informasi yang sama. Tahap seleksi ini disebut juga dengan tahap pembersihan data atau data cleaning yang bertujuan mendapatkan data yang bersih, sehingga
data tersebut dapat digunakan untuk tahap selanjutnya yaitu transformasi data. Pada Gambar 2 telah diperlihatkan bahwa proses data cleaning adalah proses awal yang dikerjakan sebelum melakukan tahap mining. Dari tahap seleksi atribut yang telah dilakukan di atas diperoleh beberapa atribut sementara yang akan digunakan dalam penelitian, yaitu : NRP, Tgllhr, Alamat, Pekerjaan Orangtua, JenisSLA, WilSMU, Anakke, dan Dari yang berasal dari dataset mahasiswa dan atribut IPK dari dataset IPK. Dan jumlah data akhir yang diperoleh adalah sebanyak 1.175 record data dari total data sebelumnya adalah 3.203 record data. Selanjutnya adalah menghapus atribut NRP , dimana pada tahap sebelumnya atribut ini digunakan untuk melihat kemunculannya pada tiap semester dan tahun akademik pada dataset IPK, setelah diperoleh informasi yang dicari maka atribut ini sudah tidak lagi diperlukan. Sehingga atribut-atribut yang digunakan hanya tinggal atribut Tgllhr, JenisSLA, PkOrtu, Anakke dan Dari. Tahap berikutnya adalah merubah tipe data dari beberapa atribut tadi, diantaranya adalah atribut Tgllhr, JenisSLA, PkOrtu, Anakke dan atribut Dari. Hal ini dilakukan dengan tujuan agar isi pada setiap atribut lebih mudah dipahami oleh pengguna data maupun pengguna informasi. Pada Tabel 9 di bawah ini ditampilkan contoh instances dengan atribut-atribut yang disebutkan tadi. Tabel 9. Contoh instances dengan atribut yang akan dirubah tipe datanya TGLLAHIR
PK_ORTU
JNSSLA
AKKE
DARI
3/4/1983
1
1
1
2
8/3/1982
1
1
1
3
9/23/1981
3
1
2
4
9/24/1979
4
1
5
7
11/19/1981
4
1
1
2
1/11/1983
4
1
2
2
2/1/1981
2
1
3
3
9/7/1982
4
1
1
3
7/13/1982
4
1
4
4
4/1/1983
4
1
1
1
7/11/1980
2
1
3
3
5/28/1981
3
1
3
3
TGLLAHIR
PK_ORTU
JNSSLA
AKKE
DARI
10/25/1981
2
1
2
2
3/23/1981
4
1
2
4
Tipe data atribut TglLhr yang semula adalah date diubah menjadi atribut Usia dengan tipe data numeric, sehingga tidak lagi berisi tanggal lahir mahasiswa melainkan berisi usia mahasiswa pada saat awal kuliah pada semester satu. Tipe data JenisSLA, PkOrtu, Anakke dan Dari diubah menjadi bertipe data string, sehingga dapat lebih mudah dipahami isi atribut yang dikandung dan tipe data ini dan sesuai dengan tipe data yang digunakan dalam algoritma decision tree. Atribut Anakke dan atribut Dari dijadikan dalam satu atribut baru bernama Anakke yang berisi informasi kategori urutan anak dalam keluarga. Beberapa atribut pada tabel di atas masih berisi data dalam bentuk kode angka, seperti nampak pada atribut PkOrtu dan JenisSLA. Berikut ini pada Tabel 10 disajikan keterangan kode pada kedua atribut tersebut. Tabel 10. Keterangan kode pada atribut PkOrtu dan JenisSLA Atribut
Kode
PkOrtu
1
TNI
2
PNS
3
Swasta
4
Purnawirawan
1
SMU
2
SMK
3
MA/MAN
JenisSLA
Keterangan
Setelah perubahan tipe data dan pemberian nama baru dilakukan kepada beberapa atribut maka isi dari atribut yang bersangkutanpun berubah. Berikut ini tampak pada Tabel 11 adalah contoh instances dengan tipe data dan nama atribut yang baru. Tabel 11. Contoh instances dengan tipe data dan nama atribut yang baru USIA
PKORTU
JNSSLA
Anakke
17
TNI
smu
sulung
18
TNI
smu
sulung
19
SWASTA
smu
tengah
USIA
PKORTU
JNSSLA
Anakke
21
PURNAWIRAWAN
smu
tengah
19
PURNAWIRAWAN
smu
sulung
17
PURNAWIRAWAN
smu
bungsu
19
PNS
smu
bungsu
18
PURNAWIRAWAN
smu
sulung
18
PURNAWIRAWAN
smu
bungsu
17
PURNAWIRAWAN
smu
tunggal
20
PNS
smu
bungsu
19
SWASTA
smu
bungsu
19
PNS
smu
tengah
19
PURNAWIRAWAN
smu
tengah
Beberapa tahapan yang telah dilakukan sebelumnya telah memberikan hasil berupa dataset dengan atribut-atribut terpilih yang akan digunakan selanjutnya pada tahap transformasi data. Selengkapnya atribut terpilih tersebut beserta contoh datanya dapat dilihat pada Tabel 12 di bawah ini. Tabel 12. Contoh instances dengan atribut terpilih USIA
ALAMAT
PKORTU
JNSSLA
WILSMU
Anakke
IPK
17
JAKARTA
TNI
smu
jakarta
sulung
2.41
18
JAKARTA
TNI
smu
jakarta
sulung
2.64
19
TANGERANG
SWASTA
smu
tangerang
tengah
2.62
21
JAKARTA
PURNAWIRAWAN
smu
jakarta
tengah
1.64
19
JAKARTA
PURNAWIRAWAN
smu
jakarta
sulung
2.15
17
JAKARTA
PURNAWIRAWAN
smu
jakarta
bungsu
3.3
19
DEPOK
PNS
smu
lainnya
bungsu
2.19
18
LAINNYA
PURNAWIRAWAN
smu
lainnya
sulung
2.49
18
JAKARTA
PURNAWIRAWAN
smu
jakarta
bungsu
3.07
17
JAKARTA
PURNAWIRAWAN
smu
jakarta
tunggal
3.61
20
DEPOK
PNS
smu
jakarta
bungsu
3.24
19
JAKARTA
SWASTA
smu
jakarta
bungsu
2.71
19
JAKARTA
PNS
smu
jakarta
bungsu
2.95
19
JAKARTA
PNS
smu
jakarta
bungsu
2.19
Berikut ini disajikan beberapa keterangan yang berkaitan dengan atributatribut pada tabel di atas, yaitu :
a. Usia Merupakan atribut yang berisi usia mahasiswa pada saat masuk kuliah semester satu. Atribut ini adalah atribut pengganti dari atribut sebelumnya yaitu Tgllhr. b. Alamat Merupakan atribut yang berisi alamat tinggal mahasiswa pada saat melakukan registrasi ulang. Untuk selanjutnya atribut ini dikelompokkan dalam enam kategori kota wilayah tinggal yaitu Jakarta, Bogor, Depok, Tangerang, Bekasi, dan Lainnya. Kategori kota lainnya memberikan arti bahwa kota yang dimaksud adalah kota wilayah selain dari lima kota wilayah yang sudah disebutkan tadi. c. PkOrtu Merupakan atribut yang menjelaskan jenis pekerjaan orang tua dari mahasiswa, yang kemudian dikelompokkan dalam empat kategori yaitu Purnawirawan, Swasta, TNI (yang maksud adalah anggota Tentara Nasional Indonesia), dan PNS (Pegawai Negeri Sipil). Pengelompokkan ini didasarkan kepada data sumber tentang jenis pekerjaan orang tua yang dimiliki oleh FIK-UPNVJ. d. JenisSLA Merupakan atribut yang menjelaskan kelompok sekolah lanjutan asal mahasiswa yang dikelompokkan ke dalam jenis sekolah kejuruan (SMK), sekolah menengah umum (SMU), dan sekolah lanjutan atas keagamaan (MA/Madrasah Aliyah). e. WilSMU Berisi alamat wilayah kota sekolah lanjutan asal mahasiswa. Kategori yang dibuat untuk atribut ini adalah sama dengan kategori yang ada pada atribut sebelumnya yaitu alamat, yaitu Jakarta, Bogor, Depok, Tangerang, Bekasi, dan Lainnya. f. Anakke Merupakan atribut yang menjelaskan urutan anak dalam keluarga. Kategori yang dibuat berdasarkan kepada informasi yang ada pada atribut Anakke
dan Dari, dengan menganalisa isi terhadap keduanya sehingga atribut yang dihasilkan terbagi ke dalam empat kategori yaitu sulung, tengah, bungsu, dan tunggal. g. IPK Merupakan atribut yang berisi nilai prestasi kumulatif mulai dari semester satu hingga akhir semester yang di tempuh oleh mahasiswa. Terdapat lima kategori IPK yang diberlakukan pada FIK-UPNVJ yaitu IPK < 1.50, 1.50 – 1.99, 2.00 – 2.49, 2.50 – 2.99, dan >= 3.00. Hasil yang di peroleh dari tahap seleksi atribut di atas telah menghasilkan sejumlah 7 atribut baru dan 1.175 record data dengan isi data yang tidak lagi redundant, tidak missing value dan data yang digunakan adalah data yang konsisten. Untuk selanjutnya dataset tersebut disebut dengan nama dataset akademik. Tahapan yang akan dikerjakan kemudian adalah transformasi data, yang akan dijelaskan pada sub bahasan selanjutnya.
Data Mining Dengan menggunakan metode 3-fold cross validation maka dataset akademik secara acak dibagi ke dalam tiga bagian, yaitu dua bagian sebagai data training dan satu bagian sebagai data testing. Pada Tabel 13 berikut ini disajikan kombinasi dari tiga bagian dataset akademik tersebut. Tabel 13. Kombinasi dataset hasil pemisahan dengan metode 3-fold cross validation Data Training
Data Testing
Dataset 1 dan Dataset 2 (training 1)
Dataset 3 (testing 1)
Dataset 1 dan Dataset 3 (training 2)
Dataset 2 (testing 2)
Dataset 2 dan Dataset 3 (training 3)
Dataset 1 (testing 3)
Kemudian dataset di atas digunakan untuk mengkonstruksi pohon keputusan (decision tree) yang dimulai dengan pembentukan bagian akar, kemudian data terbagi berdasarkan atribut-atribut yang sesuai untuk dijadikan leaf
node. Tahap ini dimulai dengan melakukan seleksi atribut menggunakan formula information gain yang terdapat pada algoritma C5.0 seperti tampak pada halaman 11 Formula 2.1, Formula 2.2 dan Formula 2.3, sehingga diperoleh nilai gain untuk masing-masing atribut, yang mana atribut dengan nilai gain tertinggi akan menjadi parent bagi node-node selanjutnya. Node-node tersebut berasal dari atribut-atribut yang memiliki nilai gain yang lebih kecil dari nilai gain atribut parent. Maka untuk mendapatkan nilai gain dari dua kelas output yang berbeda yaitu ’aktif’ dan ’tidak aktif’ pada dataset akademik adalah dengan menghitung tingkat impurity kedua kelas tersebut. Berikut ini pada Tabel 14 disajikan contoh data kelas mahasiswa aktif dan tidak aktif berdasarkan atribut JnsSLA. Tabel 14. Contoh data dengan kelas mahasiswa aktif dan tidak aktif berdasarkan atribut JnsSLA JnsSLA
Aktif
Tidak Aktif
SMU
801
219
SMK
104
23
MA
20
8
Selanjutnya dengan menggunakan data pada Tabel 14 di atas dicari nilai information gainnya yaitu, I (925,250 ) = −
925 925 250 250 − log 2 log 2 1175 1175 1175 1175
= 0,739 Jika dalam satu set hanya terdiri dari satu kelas maka entropinya = 0. Jika perbandingan dua kelas rasionya sama maka nilai entropinya=1. Dengan menggunakan formula yang sama dilakukan pemilihan atribut, dimana akan dihitung rasio nilai kelas aktif dan tidak aktif dari seluruh atribut. Salah satu contoh penerapan formula tersebut untuk pemilihan atribut (atribut JnsSLA) adalah sebagai berikut,
•
JnsSLA = SMU,
I (801,219) = −
801 801 219 219 log 2 log 2 − = 0,75 1020 1020 1020 1020
•
JnsSLA = SMK, I (104,23) = −
•
JnsSLA = MA, I (20,8) = −
•
104 104 23 23 log 2 log 2 − = 0,682 127 127 127 127
20 20 8 8 log 2 − log 2 = 0.862 28 28 28 28
Maka total entropi atribut JnsSLA : E ( JnsSLA) =
•
1020 (0,75) + 127 (0,682) + 28 (0,862) = 0,745 1175 1175 1175
Maka nilai Gain atribut JnsSLA : G ( JnsSLA) = 0,739 − 0,745 = −0,006 Hasil diatas diperoleh dengan menggunakan data 100% yang berjumlah
1175 dengan keadaan data tidak terbagi ke dalam 3-fold cross validation. Bila diterapkan pada data yang sudah terbagi ke dalam 3-fold cross validation akan memberikan hasil yang berbeda pada setiap kelompok datanya. Untuk tahap selanjutnya hal yang sama yaitu penerapan formula information gain dilakukan terhadap atribut-atribut yang lainnya dalam dataset akademik, sehingga diperoleh atribut dengan nilai gain tertinggi yang kemudian dipilih sebagai simpul pertama pada decision tree yang dikenal dengan nama root/akar. Pada simpul selanjutnya secara berurutan diisi oleh atribut-atribut yang bernilai gain lebih rendah, dan akan berhenti pada simpul akhir yang berisi kelas output dari setiap cabangnya yang dikenal dengan nama leaf/daun. Tabel 15 di bawah ini menyajikan nilai gain dari seluruh atribut pada kelompok data training dan data testing yang mana nilai gain atribut Alamat, PkOrtu, JnsSLA, WilSMU, Anakke, dan IPK yang terdapat dalam tabel adalah hasil pembulatan terhadap nilai aslinya. Tabel 15. Nilai gain seluruh atribut pada kelompok data training dan data testing Dataset
training 1
Instances
784
Gain Usia
Alamat
PkOrtu
JnsSLA
WilSMU
Anakke
IPK
0
0.024
0.002
0.005
0.013
0.002
0.242
Dataset
Instances
Gain Usia
Alamat
PkOrtu
JnsSLA
WilSMU
Anakke
IPK
training 2
783
0
0.018
0.002
0.002
0.009
0.002
0.249
training 3
783
0
0.023
0.004
0.002
0.011
0.003
0.204
0
0.022
0.003
0.003
0.011
0.002
0.232
rata-rata
Pada Tabel 15 diatas tampak bahwa atribut IPK memiliki nilai Gain tertinggi, sehingga atribut ini menjadi atribut root pada decision tree, kemudian dilanjutkan dengan atribut Alamat dan WilSMU yang berfungsi sebagai child node, dan diakhiri oleh label kelas aktif dan tidak aktif yang berfungsi sebagai leaf. Maka dapat dikatakan bahwa parameter penentu pertama seorang mahasiswa berpotensi untuk aktif atau tidak aktif pada waktu yang akan datang dilihat dari IPK yang diperoleh mahasiswa yang bersangkutan, kemudia Alamat tinggal dan WilSMU mahasiswa tersebut. Atribut Usia, PkOrtu, JnsSLA dan Anakke rata-rata nilai gain yang diperoleh sangat kecil jika dibandingkan dengan atribut Alamat, WilSMU dan IPK, sehingga dapat disimpulkan bahwa dukungan informasi yang terkandung dalam atribut tersebut terhadap output yang dicapai sangat kecil. Maka atribut akhir yang terpilih hanya terdiri dari atribut IPK, Alamat, dan WilSMU. Dengan menggunakan tiga atribut terakhir tadi maka diperoleh dengan jelas karakteristik
mahasiswa
aktif
dan
tidak
aktif
beserta
aturan
yang
mengklasifikasikan data tersebut. Pada Gambar 6 berikut ini disajikan hasil klasifikasi pada data testing 3 dengan menggunakan tiga atribut terakhir tadi.
Gambar 6. Gambar hasil klasifikasi data testing 3 menggunakan weka classifier Salah satu hasil klasifikasi decision tree seperti pada Gambar 6 diatas menggunakan beberapa parameter yang tersedia pada weka classifier untuk klasifikasi menggunakan algoritma C5.0 ( atau J48 pada weka ) yaitu : - binary splits= false, jika bernilai true maka setiap level hanya terdiri dari dua cabang (pada setiap atribut hanya terdiri dari dua kategori, kategori lain dianggap sebagai kategori pada atibut lain) -
confidencefactor = 0.25, atribut dengan nilai gain sama dengan 0.25 atau lebih tinggi maka terpilih sebagai atribut untuk decision tree, sedangkan atribut dengan nilai lebih kecil dari 0.25 akan dipangkas (pruned) dan tidak terpilih sebagai atribut untuk decision tree.
-
debug = false, jika bernilai true maka classifier akan memberikan informasi yang akan ditampilkan pada layar console.
-
minnumObj = 2, jumlah minimum instances per leaf.
-
numfolds=3, data yang akan diklasifikasi dibagi menjadi 3 bagian yaitu 1 bagian data digunakan untuk proses pruning sedangkan 2 bagian data yang lainnya digunakan untuk membentuk decision tree berdasarkan hasil dari bagian data sebelumnya .
-
reducederrorpruning = false,tidak dilakukan prosedur pruning yang lain
-
save instance data = false, tidak dilakukan penyimpanan data training untuk visualisasi
-
seed = 1, digunakan untuk mengacak data saat reduksi error pruning dilakukan
-
subtreeraising = true, memeriksa posisi subtree pada saat proses pruning dilakukan
-
unpruned = false, jika bernilai true maka proses pruning tidak dikerjakan.
-
uselaplace = false,dengan menggunakan metode Laplace akan dihitung jumlah true classified dan missclassified. Pada Gambar 6 diatas terlihat bahwa weka classifier hanya memilih atribut
IPK sebagai atribut dalam decision tree, sedangkan atribut lainnya terpangkas dari decision tree. Maka dapat disimpulkan bahwa dengan jumlah dan jenis data yang ada pada testing 3 hanya dibutuhkan atribut IPK untuk mendapatkan kelas output dari dataset tersebut. Hasil klasifikasi pada data testing 3 diatas tampak pula struktur if -then yang menunjukkan susunan aturan-aturan yang diperoleh, berikut pada Gambar 7 ditampilkan kembali bentuk aturan yang dimaksud :
Gambar 7. Aturan-aturan klasifikasi hasil data testing 3 Adapun struktur if-then untuk aturan diatas adalah sebagai berikut : If IPK <= 1.77 then Status = Tidak Aktif
Else If IPK > 1.77 then Status = Aktif Dan bentuk Gambar 7 diatas dapat pula dilihat dalam bentuk decision tree yang dihasilkan, seperti pada Gambar 8 berikut ini :
Gambar 8. Hasil klasifikasi dengan algoritma C5.0 menggunakan weka classifier dalam bentuk struktur pohon keputusan Klasifikasi dengan decision tree (algoritma C5.0) telah menghasilkan beberapa aturan, baik dalam bentuk struktur pohon keputusan maupun dalam bentuk aturan if – then. Kegiatan selanjutnya adalah melakukan klasifikasi dengan menggunakan metode K-Nearest Neighbor (KNN) yang mana dalam weka classifier diberi nama IBk. Pada dasarnya tahapan yang dilakukan kali ini menggunakan beberapa parameter yang berisi nilai yang sudah default pada weka classifier, hanya saja untuk parameter KNN akan diisi dengan nilai ganjil mulai dari 1, 3 dan 5. Karena jumlah data/tetangga pada KNN ditentukan oleh user dan untuk mendapatkan hasil yang reasonable maka k berisi data dalam bilangan ganjil, maka dipilihlah jumlah tetangga dengan angka-angka tersebut, dengan asumsi bahwa jumlah tetangga data yang diambil adalah sebanyak 1, 3 dan 5 tetangga data. Parameter-parameter yang dimaksud yaitu : -
KNN=1,banyaknya jumlah tetangga data yang diambil.
-
crossValidate = false, digunakan untuk menentukan k yang terbaik.
-
debug = false, jika bernilai true maka classifier akan memberikan informasi yang akan ditampilkan pada layar console.
-
distanceWeighting =no distance weighting, setiap data tetangga yang dipilih tidak diberi bobot.
-
meanSquared = false,akan lebih baik bila digunakan untuk data-data regresi.
-
nearestNeighborSearchAlgorithm=LinearNNSearch, adalah algoritma standar yang digunakan untuk mencari tetangga data pada weka.
-
windowsize = 0, jumlah maksimum data yang diklasifikasi tidak terbatas. Hasil yang diperoleh menunjukkan kecenderungan yang lebih baik dalam
mengklasifikasikan data, baik dengan jumlah tetangga data=1, 3 atau 5. Setiap data yang diuji diperhatikan tingkat ketepatan dan ketidaktepatan dalam mengklasifikasikan data tersebut dan lama waktu yang dibutuhkan untuk membangun model. Hasil klasifikasi dengan tingkat ketepatan klasifikasi data yang tertinggi dan lama waktu terendah dalam membangun model akan dijadikan sebagai model terbaik. Karena k adalah satu-satunya hyper-paramater dalam KNN yang mana nilainya harus ditentukan dengan coba-coba, maka k yang diambil adalah k=1, k=3 dan k=5. Angka-angka tersebut diambil bertujuan untuk mendapatkan hasil yang reasonable yaitu hasil yang diperoleh memiliki waktu yang singkat dalam membangun model , data terklasifikasi dengan baik. Seperti halnya pada algoritma C5.0, penggunaan algoritme ini dalam data training dan data testing memberikan hasil yang berbeda-beda, dan berikut ini pada Gambar 9 ditampilkan hasil klasifikasi dengan KNN=1 atau jumlah data tetangga yang diambil adalah sebanyak 1 pada data testing 3.
Gambar 9. Hasil klasifikasi dengan KNN=1 pada data testing 3 menggunakan weka classifier Pada Gambar 9 di atas sebanyak 82 record data diklasifikasikan sebagai mahasiswa tidak aktif, 309 record data mahasiswa aktif dan 9 record data diklasifikasikan tidak sesuai dengan kelasnya yaitu terdiri dari 3 record data diduga sebagai mahasiswa tidak aktif ternyata adalah mahasiswa aktif serta 6 data diduga sebagai mahasiswa aktif ternyata adalah mahasiswa tidak aktif. Selebihnya hasil uji coba klasifikasi dengan KNN dapat dilihat pada bab lampiran yang terdapat pada tesis ini. Pengujian data dengan KNN relatif lebih singkat untuk dilakukan dibandingkan dengan C5.0. Pada bahasan berikutnya akan dilakukan analisis dengan menggunakan beberapa alat ukur evaluasi seperti yang sudah dijelaskan pada bahasan sebelumnya, terhadap hasil yang diperoleh dengan menggunakan algoritma C5.0 dan KNN.
Evaluasi
Seperti yang sudah dijelaskan pada bahasan sebelumnya, pada tahap ini akan dilakukan evaluasi terhadap kedua algoritma yang dipakai pada dataset akademik dengan memperhatikan beberapa parameter evaluasi yaitu correctly classified, incorrectly classified, yang mana kedua parameter ini diwakili oleh parameter overall success rate yang terdapat pada confusion matrix. Persentase klasifikasi sesuai dengan kelasnya dan klasifikasi yang tidak sesuai dengan kelasnya diukur menggunakan lift chart dan recall precision sehingga diperoleh
informasi yang tersembunyi di dalamnya. Untuk lebih mempermudah pemahaman dalam menganalisa hasil klasifikasi yang disajikan, dilampirkan pula beberapa visualisasi hasil tersebut dalam bentuk grafik yang akan disajikan setelah tabel persentase hasil klasifikasi. Berikut ini pada Tabel 16 disajikan persentase hasil klasifikasi data sesuai dengan kelasnya berdasarkan alat ukur evaluasi berupa confusion matrix yang terdiri dari overall success rate, lift chart, dan recall precision pada C5.0 dan KNN terhadap data training dan data testing. Tabel 16. Persentase hasil klasifikasi berdasarkan alat ukur evaluasi confusion matrix (overall success rate, lift chart, dan recall precision) Dataset
Overall success rate
Lift chart
Recall precision
C5.0
K=1
K=3
K=5
C5.0
K=1
K=3
K=5
C5.0
K=1
K=3
K=5
Training
87.91
94.21
88.64
86.94
38
41
38
37
81
90
85
84
Testing
86.98
95.83
88.17
89.03
39
42
38
37
80
90
85
85
Pada Tabel 16 diatas dapat dilihat bahwa kecenderungan hasil terbaik diperoleh pada saat uji coba data menggunakan KNN dengan k=1. Baik pada saat uji coba dengan data training yang jumlah datanya dua kali lebih banyak dari data testing, hasil yang diperoleh tetap menunjukkan nilai tertinggi hingga mencapai lebih dari 95%. Berikut ini pada Gambar 10, Gambar 11, Gambar 12, disajikan grafik yang menunjukkan perbandingan terhadap dua metode diatas ke dalam masing-masing alat ukur evaluasi yang digunakan seperti disebutkan sebelumnya.
nilai (%)
100 90 80 70 60 50 40 30 20 10 0
Training Testing
C5.0
knn=1
knn=3
knn=5
Overall success rate
Gambar 10. Grafik Overall Success Rate pada dataset akademik menggunakan metode decision tree (C5.0) dan KNN Pada grafik di atas terlihat bahwa keberhasilan klasifikasi yang mencapai nilai hampir 100% menunjukkan bahwa KNN dengan k=1 menjadi lebih baik dibandingkan C5.0, namun keberhasilan tersebut tidak terulang pada saat jumlah k diberikan nilai yang lebih besar. Maka dapat disimpulkan bahwa klasifikasi
nila i (% )
metode KNN dengan k=1 adalah model terbaik. 100 90 80 70 60 50 40 30 20 10 0
training testing
c5.0
Gambar 11. Grafik Lift Chart
knn=1
knn=2
lift chart
knn=3
pada dataset akademik menggunakan metode
decision tree (5.0) dan KNN Pada Gambar 11 di atas, kecenderungan hasil yang sama yaitu jumlah kelas positif pada kedua algoritma terjadi pada saat klasifikasi dilakukan dengan
menggunakan data training dan testing. Rata-rata jumlah data yang terklasifikasi
nilai (%)
ke dalam kelas positif mencapai 40% dari seluruh data yang diklasifikasi. 100 90 80 70 60 50 40 30 20 10 0
Training Testing
C5.0
knn=1
knn=3
knn=5
recall precision
Gambar 12. Grafik Recall Precision
pada dataset akademik menggunakan
metode decision tree (5.0) dan KNN Pada grafik di atas data yang di klasifikasi dan sesuai dengan kelasnya rata-rata mencapai nilai hingga 80% lebih, yang menyatakan bahwa seluruh data yang di klasifikasi dapat dikenali dengan sangat baik oleh kedua algoritma. Hal ini dapat disebabkan oleh karena dilakukannya tahap seleksi data dan atribut sebelum dilakukan kegiatan klasifikasi, sehingga seluruh data yang diolah hanyalah data yang bersih dari missing value dan redudancy. Sementara itu sejumlah data yang diklasifikasi namun tidak sesuai dengan kelasnya (missclassified) sebanyak 5%, dan berikut ini pada Gambar 13 disajikan grafik persentase klasifikasi sesuai dengan kelasnya (true classified) dan klasifikasi tidak sesuai dengan kelasnya (missclassified).
nilai (%)
ketepatan klasifikasi 100 90 80 70 60
true classified missclassified
50 40 30 20 10 0
C5.0
knn=1
knn=3
knn=5
Gambar 13. Grafik persentase true classified dan missclassified Hasil yang diperoleh dalam penelitian ini dengan menggunakan algoritma C5.0 dan KNN menunjukkan bahwa decision tree dengan algoritma C5.0 tetap dinilai lebih baik ini dibandingkan dengan KNN, karena decision tree memberikan output berupa karakteristik data yang terklasifikasi, baik untuk kelas aktif maupun kelas tidak aktif. Sedangkan knn tidak dapat memberikan karakteristik tersebut sehingga tidak diperoleh informasi karakteristik data yang dibutuhkan, melainkan hanya memberikan informasi jumlah data yang dapat terklasifikasi dan tidak terklasifikasi saja.