PERBANDINGAN KINERJA METODE KLASIFIKASI DATA MINING MENGGUNAKAN NAÏVE BAYES DAN ALGORITMA C4.5 UNTUK PREDIKSI KETEPATAN WAKTU KELULUSAN MAHASISWA

PERBANDINGAN KINERJA METODE KLASIFIKASI DATA MINING MENGGUNAKAN NAÏVE BAYES DAN ALGORITMA C4.5 UNTUK PREDIKSI KETEPATAN WAKTU KELULUSAN MAHASISWA Gian Fiastantyo A11.2009.04932 Program Studi Teknik Informatika –S1 Fakultas Ilmu Komputer Universitas Dian Nuswantoro, Jl. Nakula 1 No. 5-11. Semarang [email protected]

ABSTRAK Perguruan tinggi adalah jenjang pendidikan yang dianggap sebagai gerbang terakhir bagi pelajar untuk menimba ilmu sebelum akhirnya melibatkan diri dalam persaingan kerja. Jumlah mahasiswa yang lulus tepat waktu menjadi indikator efektifitas dari sebuah perguruan tinggi baik negeri dan swasta. Penelitian dalam hal memprediksi tingkat kelulusan mahasiswa telah banyak dilakukan. Dalam penelitian ini dilakukan perbandingan metode data mining yaitu algoritma naïve bayes dan C4.5, yang diterapkan pada data mahasiswa strata 1 Fakultas Ilmu Komputer Universitas Dian Nuswantoro. Naïve bayes adalah metode yang menghitung probabilitas dari tingkat kemunculan data yang satu terhadap data yang lainnya. Algoritma C4.5 adalah satu dari sebagian algoritma dalam metode decision tree yang mengubah data menjadi pohon keputusan, untuk kemudian dapat disimpulkan menjadi rule-rule. Berdasarkan hasil pengujian dengan mengukur kinerja kedua metode tersebut menggunakan metode pengujian confusion matrix, kemudian diketahui bahwa C4.5 memiliki nilai akurasi yang lebih baik yakni sebesar 77,354% , sedangkan naïve bayes memiliki nilai akurasi mencapai 74,094%. Kemudian berdasarkan perbandingan kinerja kedua metode tersebut, metode dengan pencapaian nilai akurasi terbaik akan diimplementasikan dalam bentuk sebuah Decision Support System. Kata Kunci

: data mining, klasifikasi, kelulusan, algoritma C4.5, naïve bayes

I. Pendahuluan Perguruan tinggi

jenjang

sumber daya yang dapat digunakan guna

pendidikan yang dianggap sebagai gerbang

meningkatkan kemampuan dan daya saing

terakhir bagi pelajar untuk menimba ilmu

perguruan tinggi. Sistem informasi dalam

sebelum akhirnya melibatkan diri dalam

hal ini dapat digunakan guna memperoleh,

persaingan

institusi

mengolah serta menyebarkan informasi

perguruan tinggi berada dalam lingkungan

yang telah diolah, agar dapat menunjang

yang

berbagai kegiatan operasional, sekaligus

kerja.

sangat

perguruan memiliki

tinggi

adalah

Saat

ini

kompetitif. kini

keunggulan

Sehingga

dituntut dalam

untuk

dapat berperan serta dalam mendukung

bersaing

pengambilan keputusan strategis yang akan

dengan memanfaatkan semua sumber daya yang

dimiliki.

Selain

sumber

daya

dilakukan. Institusi

perguruan

tinggi

kini

manusia, sarana, serta prasarana, sistem

diwajibkan meningkatkan kualitas layanan

informasi adalah contoh lain dari beberapa

dan memuaskan para mahasiswa serta

ruang publik disekitar mereka. Perguruan

mahasiswa yang lulus terlambat.

tinggi menganggap mahasiswa dan dosen

Penelitian dalam hal pengolahan data

sebagai resource utama dan mereka ingin

siswa atau mahasiswa telah dilakukan

tersebut

dengan beberapa metode yaitu [7], [14],

dengan cara yang lebih efektif [18]. Dalam

[19]. Tetapi belum ada yang melakukan

struktur pendidikan saat ini, mahasiswa

perbandingan kinerja antara metode naïve

memiliki

bayes dan algoritma C4.5 sehingga belum

terus

menggunakan

peran

resource

penting

bagi

sebuah

institusi pendidikan. Oleh karena itu perlu ditinjau ulang mengenai tingkat kelulusan

diketahui metode yang paling akurat. Oleh sebab itu dalam penelitian ini akan

mahasiswa tepat pada waktunya.

dilakukan

perbandingan

metode

Kelulusan tepat waktu merupakan isu

Naïve Bayes, dan Algoritma C4.5 sehingga

penting yang perlu disikapi dengan bijak

dapat diperoleh metode dengan akurasi

oleh institusi pendidikan. Tingkat kelulusan

prediksi ketepatan kelulusan mahasiswa

dianggap sebagai salah satu parameter

yang terbaik berdasar model data yang

efektifitas

ada.

institusi

pendidikan

[18].

Sehingga saat ini memperhatikan tingkat

II. Latar Belakang

kelulusan tepat waktu suatu perguruan

A. Naïve Bayes

tinggi menjadi hal penting. Penurunan

Bayes

merupakan

teknik

prediksi

berbasis

berpengaruh terhadap akreditasi perguruan

sederhana

yang

tinggi tersebut. Oleh karena itu perlu

penerapan

teorema

adanya monitoring serta evaluasi terhadap

aturan

kecenderungan kelulusan mahasiswa, tepat

independensi

waktu atau tidak.

yang kuat (naif). Dengan kata lain,

tingkat

kelulusan

Berdasar

mahasiswa

deskripsi

di

atas,

akan

jelas

Bayes)

probabilistic berdasar

pada

Bayes

(atau

dengan

asumsi

(ketidaktergantungan)

dalam Naïve Bayes, model yang

bahwa memprediksi kelulusan adalah hal

digunakan

yang penting bagi institusi dan potensi

independen”.

adalah

“model

fitur

besar bagi institusi untuk menyikapi serta

Dalam Naïve Bayes, maksud

menentukan kebijaksaan strategis perihal

independensi yang kuat pada fitur

kelulusan tepat waktu. Setelah institusi

adalah bahwa sebuah fitur pada

melakukan identifikasi mahasiswa yang

sebuah data tidak berkaitan dengan

beresiko, kemudian dilanjutkan dengan

ada atau tidaknya fitur lain dalam

mekanisme evaluasi dan monitoring, guna

data yang sama. Contohnya pada

meningkatkan

kasus klasifikasi hewan dengan fitur

kegigihan

mahasiswa, tingkat

penutup kulit, melahirkan, berat, dan

dapat

menyusui. Dalam dunia nyata, hewan

dianggap membagi mahasiswa menjadi dua

yang berkembang biak dengan cara

kelas yaitu “tepat” bagi mahasiswa yang

melahirkan dapat dipastikan juga

lulus tepat waktu dan “terlambat” bagi

menyusui. Di sini ada ketergantungan

dengan

harapan

kelulusan.

Tugas

meningkatnya prediksi

ini

pada fitur menyusui karena hewan

berisi fitur dan Y adalah label kelas.

menyusui biasanya melahirkan, atau

Naïve

hewan yang bertelur biasanya tidak

P(Y|X). Notasi ini disebut juga

menyusui. Dalam Bayes, hal tersebut

probabilitas

tidak dipandang sehingga masing-

probability) untuk Y, sedangkan

masing fitur seolahtidak memiliki

P(Y) disebut probabilitas awal (prior

hubungan apa pun.

probability) Y.

Bayes

Prediksi Bayes didasarkan

dituliskan

akhir

Selama

dengan

(posterior

proses

pada teorema Bayes dengan formula

harus

umum sebagai berikut:

probabilitas akhir P(Y|X) pada model

pembelajaran

(6)

( | ) ( ) ( )

( | )=

dilakukan

pelatihan

untuk setiap kombinasi X dan Y berdasarkan informasi yang didapat

Ide dasar dari aturan Bayes

dari data latih. Dengan membangun

adalah bahwa hasil dari hipotesis atau

model tersebut, suatu data uji X’

peritiwa

diperkirakan

dapat diklasifikan dengan mecari

berdasarkan pada beberapa bukti (E)

nilai Y’ dengan memaksimalkan nilai

yang diamati. Ada beberapa hal

P(Y’|X’) yang didapat.

(H)

dapat

penting dari aturan Bayes tersebut, yaitu:

Formulasi Naïve Bayes untuk klasifikasi adalah

1. Sebuah

probabilitas ( | )=

awal/priori H atau P(H)

( )∏

( | ) ( )

adalah probabilitas dari

P(Y|X) adalah probabilitas

suatu hipotesis sebelum

data dengan vector X pada kelas Y.

bukti diamati.

P(Y) adalah probabilitas awal kelas

2. Sebuah probabilitas akhir

Y. ∏

( | ) adalah probabilitas

H atau P(H|E) adalah

independen kelas Y dari semua fitur

probabilitas hipotesis

dari

suatu

dalam vector X. Nilai P(X) selalu

setelah

bukti

tetap sehingga dalam perhitungan

diamati.

prediksi

Kaitan antara Naïve Bayes dengan klasifikasi, korelasi hipotesis,

nantinya

kita

tinggal

menghitung ( )∏

bagian ( | ) dengan memilih

dan bukti dengan klasifikasi adalah

yang terbesar sebagai kelas yang

bahwa

dipilih

hipotesis

dalam

teorema

sebagai

hasil

prediksi.

Bayes merupakan label kelas yang

Sementara probabilitas independen

menjadi

∏

klasifikasi,

target

pemetaan

sedangkan

dalam bukti

merupakan fitur-fitur yang menjadi masukan dalam model klasifikasi. Jika X adalah vector masukan yang

( | )

tersebut

merupakan

pengaruh semua fitur dari data terhadap

setiap

dinotasikan dengan:

kelas

Y,

yang

( | = ) =

( | = )

sejumlah calon variabel input dengan sebuah

Dan {

,

setiap ,

fitur

,….,

X=

} terdiri atas q

atribut.

decision tree eksplorasi

target.

Karena

memadukan antara

data

dan

pemodelan.

Decision tree digunakan untuk kasus-

B. Algoritma C4.5

kasus dimana outputnya bernilai

Tree atau pohon banyak dikenal sebagai

variabel

bagian

dari

Graph,

yan

diskrit [10]. decison

Sebuah

tree

adalah

termasuk dalam irisan bidang ilmu

sebuah struktur yang dapat digunakan

otomata

serta

untuk membagi kumpulan data yang

sendiri

besar menjadi himpunan-himpunan

yang

record yang lebih kecil dengan

dan

matematika merupakan

teori

bahasa Tree

diskrit. graf

tak-berarah

terhubung, serta tidak mengandung

menerapkan

sirkuit. [15] Dalam sebuah tree, setiap

keputusan. Dengan masing-masing

pasang simpul terhubung hanya oleh

rangkaian

satu lintasan, dan sebuah tree terdiri

himpunan hasil menjadi mirip dengan

dari [25]:

yang lain [4]

a) Root/akar, yang merupakan simpul tertinggi.

pembagian,

tanpa anak lagi .

aturan

anggota

Proses pada decision tree adalah mengubah

b) Leaf/daun, yang berupa simpul

serangkaian

bentuk

data

(tabel)

menjadi model pohon, mengubah model pohon menjadi rule, dan

c) Branch/cabang, yang merupakan simpul-simpul selain daun.

menyederhanakan rule [3]. Sebuah model decision tree terdiri

Decision tree merupakan metode

dari

sekumpulan

aturan

untuk

klasifikasi dan prediksi yang sangat

membagi sejumlah populasi yang

kuat dan terkenal. Metode decision

heterogen menjadi lebih kecil, lebih

tree mengubah fakta yang sangat

homogen

besar menjadi pohon keputusan yang

pada variabel tujuannya. Variabel

merepresentasikan

tujuan

dapat

dengan

aturan.

memperhatikan

biasanya

dikelompokkan

dipahami

dengan pasti dan lebih mengarah

dengan bahasa alami. Selain itu

pada perhitungan probabilitas dari

aturan

tiap-tiap record terhadap kategori-

juga

mudah

Aturan

dengan

dapat

diekspresikan

dalam bentuk bahasa basis data

kategori

seperti Structured Query Language

mengklasifikasi

(SQL) untuk mencari record pada

mengelompokkannya

kategori tertentu.

kelas.

Decision tree juga berguna dalam mengeksplorasi hubungan

data,

menemukan

tersembunyi

antara

tersebut

atau record

untuk dengan

dalam

satu

Data dalam decision tree biasanya dinyatakan

dalam

bentuk

tabel

dengan atribut dan record. Atribut

menyatakan suatu parameter yang

dapat

dibuat

menggunakan

sebagai

kriteria

dalam

dilakukan

dengan

konsep

Entropy,

pembentukan pohon. Atribut ini juga

Entropy menyatakan impurity suatu

memiliki

kumpulan

nilai

yang

terkandung

objek.

Jika

diberikan

didalamnya yang disebut instance.

sekumpulan

Dalam decision tree setiap atribut

label/output y yang terdiri dari objek

akan

simpul.

berlabel 1, 2 sampai n, Entropy dari

akan

objek dengan n kelas ini dapat

menempati

Selanjutnya

posisi

setiap

simpul

memiliki jawaban yang dibentuk

objek

dengan

dihitung dengan rumus berikut.

dalam cabang-cabang, jawaban ini ( ) = −

adalah instance dari atribut (simpul) yang

ditanyakan.

penelusuran,

Pada

pertanyaan

….−

saat

akan

(1)

pertama

akan ditanyakan pada simpul akar. Selanjutnya

−

Kemudian

setelah

itu

ada

dilakukan

beberapa kriteria yang dibahas, yakni

penelusuran

ke

cabang-cabang

Information Gain, Gain Ratio, Indeks

simpul

dan

simpul-simpul

Gini.

akar

berikutnya.

Penelusuran

setiap

1. Information Gain

simpul ke cabang-cabangnya akan

Information

gain

adalah

berakhir ketika suatu cabang telah

kriteria yang paling

populer

menemukan simpul kelas atau obyek

untuk

atribut.

yang dicari.

Information gain dapat dihitung

Saat menyusun sebuah decision

pemilihan

dari output data atau variabel

tree pertama yang harus dilakukan

dependent

adalah menentukan atribut mana

dikelompokkan

yang akan menjadi simpul akar dan

atribut A, dinotasikan dengan

atribut mana yang akan menjadi

gain (y,A). Information gain,

simpul selanjutnya. Pemilihan atribut

gain (y,A), dari atribut A relatif

yang

terhadap output data y adalah :

baik

adalah

atribut

yang

yang paling kecil

( ) (2)

− ∈

obyek

berdasarkan

( )

=

ukurannya. Atau atribut yang bisa memisahkan

yang

( , )

memungkinkan untuk mendapatkan decision tree

y

( )

menurut

Dimana nilai(A) adalah semua

kelasnya. Secara heuristik atribut

nilai yang mungkin dari atribut A,

yang dipilih adalah atribut yang

dan

menghasilkan simpul yang paling

mempunyai nilai c.

”purest” (paling bersih). Ukuran

2.

adalah subset dari y dimana A

Gain Ratio

purity dinyatakan dengan tingkat

Untuk

impurity, dan untuk menghitungnya,

diperlukan

menghitung suatu

gain

ratio term

SplitInformation.

SplitInformation

Secara umum langkah algoritma C4.5

dapat dapat dihitung dengan formula

untuk membangun pohon keputusan

sebagai berikut :

adalah sebagai berikut:

Dimana subset

sampai yang

adalah c

dihasilkan

dari

pemecahan S demgan menggunakan atribut A yang mempunyai sebanyak c

nilai.

Selanjutnya

gain

a.

Pilih atribut sebagai akar.

b.

Buat cabang untuk tiap-tiap nilai.

c.

Bagi kasus dalam cabang.

d.

Ulangi

proses

untuk

setiap

cabang sampai semua kasus pada cabang memiliki kelas

yang

sama.

ratio

dihitung dengan cara :

C. Tahap-Tahap Data Mining

3. Indeks Gini Jika

kelas

obyek

dinyatakan

dengan k, k-1,2, ...C, dimana C adalah

jumlah

kelas

untuk

variabel/output dependent y, Indeks Gini untuk suatu cabang atau kotak A dihitung sebagai berikut :

Dimana pk adalah ratio observasi Sebagai

dalam kotak A yang masuk dalam

suatu

rangkaian

kelas k. Jika IG(A) = 0 berarti semua

proses, data mining dapat dibagi

data dalam kotak A berasal dari kelas

menjadi beberapa tahap. Tahap-tahap

yang sama. Nilai IG(A) mencapai maksimum jika dalam kelas

A

proporsi data dari masing-masing kelas yang ada mencapai nilai yang

merupakan algortima

pemakai

terlibat

C4.5 pengembangan ID3,

sendiri dari dimana

pengembangan dilakukan dalam hal: bisa mengatasi missing data, bisa mengatasi data kontiyu, pruning.

langsung

atau

dengan perantaraan knowledge base. a. Business

Understanding

pemahaman

sama. Algortima

tersebut bersifat interaktif di mana

domain

atau

(penelitian).

Pada fase ini dibutuhkan pemahaman tentang substansi dari kegiatan data mining

yang

akan

dilakukan,

kebutuhan dari perspektif bisnis. Kegiatannya antara lain: menentukan sasaran atau tujuan bisnis, memahami

situasi bisnis, menentukan tujuan

presentasi dari pengetahuan yang

data

didapat dari evaluasi pada proses

mining

dan

membuat

perencanaan strategi serta jadwal penelitian. b. Data

data mining [11]. D. Confusion Matrix

Understanding

pemahaman

data

mengumpulkan

atau

adalah

(tools)

visualisasi

yang

biasa

awal,

digunakan pada supervised learning.

bisa

Tiap kolom pada matriks adalah

mengenal data yang akan dipakai.

contoh kelas prediksi, sedangkan tiap

Fase

baris mewakili kejadian di kelas yang

mempelajari

data

fase

Confusion Matrix adalah alat

data

untuk

ini

mencoba

mengidentifikasikan masalah yang berkaitan

dengan

kualitas

sebenarnya (Gorunescu, 2011).

data,

Confusion

matrix

berisi

mendeteksi subset yang menarik dari

informasi aktual (actual) dan prediksi

data untuk membuat hipotesa awal.

(predicted) pada sisitem klasifikasi.

c. Data preparation atau persiapan

Tabel

2.2

adalah

contoh

tabel

data. Fase ini sering disebut sebagai

confusion matrix yang menunjukan

fase yang padat karya. Aktivitas yang

klasifikasi dua kelas.

dilakukan antara lain memilih table field

dan

yang

Prediksi

akan

ditransformasikan ke dalam database

Aktual

Negaif

A

C

Positif

B

D

baru untuk bahan data mining (set Keterangan:

data mentah). d. Modeling adalah fase menentukan teknik data mining yang digunakan, menentukan tools data mining, teknik data mining, algoritma data mining, menentukan parameter dengan nilai

A = jumlah prediksi yang tepat bahwa instance bersifat negatif B =jumlah prediksi yang salah bahwa instance bersifat positif C =jumlah prediksi yang salah bahwa instance bersifat negatif

yang optimal. e. Evaluation adalah fase interpretasi terhadap hasil data mining yang

D =jumlah prediksi yang tepat bahwa instance bersifat positif.

ditunjukan dalam proses pemodelan

Beberapa persyaratan standar yang

pada

telah

fase

sebelumnya.

Evaluasi

didefiniskan

untuk

matrik

dilakukan secara mendalam dengan

klasifikasi dua kelas:

tujuan menyesuaikan model yang

a. Keakuratan (AC) adalah proposi

didapat agar sesuai dengan sasaran

jumlah

yang

persamaannya:

ingin

dicapai

dalam

fase

f. Deployment atau penyebaran adalah penyusunan

benar.

Rumus

AC = A + D/A + B + C + D

pertama.

fase

prediksi

laporan

atau

b. Penarikan

kembali

(recall)

atau

tingkat positif benar (TP) adalah

proporsi

kasus

positif

yang

yang sangat kompetitif. Sehingga

diidentifikasi dengan benar, yang

perguruan tinggi kini dituntut untuk

dihitung dengan persamaan:

memiliki

TP = D/C + D

keunggulan

bersaing

c. Tingkat positif salah (FP) adalah

dan

meningkatkan

dalam diwajibkan

kualitas

layanan

proporsi kasus negatif yang salah

serta memuaskan para mahasiswa

diklasifikasikan sebagai positif, yang

serta ruang publik disekitar mereka.

dihitung

Dalam struktur pendidikan saat ini,

dengan

menggunakan

persamaan:

mahasiswa memiliki peran penting FP = B/A+B

d. Tingkat

negatif

sejati

bagi sebuah institusi pendidikan. (TN)

Karena itu perlu ditinjau ulang

didefinisikan sebagai proporsi kasus

mengenai

negative

mahasiswa tepat pada waktunya.

yang

diklasifikasikan

dengan benar, yang dihitung dengan

tingkat

Kelulusan

kelulusan

tepat

waktu

menggunakan persamaan:

merupakan isu penting yang perlu

TN = A/A + B

disikapi dengan bijak oleh institusi

(12)

e. Tingkat negatif palsu (FN) adalah

pendidikan.

Tingkat

kelulusan

proporsi kasus positif yang salah

dianggap

diklasifikasikan sebagai negatif, yang

parameter

dihitung

pendidikan (Qudri & Kalyankar,

dengan

menggunakan

persamaan: f. Presisi (P) adalah proporsi prediksi positif

dihitung

yang benar,

dengan

yang

menggunakan

persamaan: P = D/B + D

salah

efektifitas

2010).

FN = C/C + D

kasus

sebagai

satu

institusi saat(13) ini

Sehingga

memerhatikan

tingkat kelulusan

tepat

suatu

waktu

tinggi

menjadi

hal

Penurunan

tingkat

mahasiswa

akan

terhadap

perguruan penting. kelulusan (14) berpengaruh

akreditasi

perguruan

tinggi tersebut. Oleh karena itu III. Desain Penelitian

perlu adanya monitoring serta

Metode yang digunakan dalam

evaluasi terhadap kecenderungan

penelitian ini adalah model CRISP-

kelulusan mahasiswa, tepat waktu

DM (Cross Industry Standard Process

atau tidak.

for Data Mining), dengan langkah-

b. Pemahaman

langkah sebagai berikut:

Data

(Data

Understanding) Data yang digunakan dalam

a. Pemahaman

Bisnis

(Bussiness

Understanding) Saat ini institusi perguruan tinggi berada dalam lingkungan

penelitian ini tidak diperoleh dari sumber

data,

mahasiswa,

dalam secara

hal

ini

langsung.

Melainkan data ini diperoleh dari

database mahasiswa yang dimiliki

menandakan

bahwa

atribut

oleh Universitas Dian Nuswantoro

bersangkutan akan digunakan dalam

Semarang, yaitu melalui bagian

penelitian, sedangkan indikator no (×)

ruang data yang dimiliki oleh

menandakan bahwa atribut tersebut

fakultas Ilmu Komputer. Data yang

akan dieliminasi pada tahap data

dikumpulkan adalah data mahasiswa

preparation.

fakultas Ilmu Komputer dengan program studi strata satu (S1) untuk

d. Pemodelan (Modelling)

tahun angkatan 2008 dan 2009. Data

Terdapat dua metode yang akan

terkumpul sebanyak 1919 data,

digunakan dalam penelitian ini, yaitu

dengan atribut nim (nomor induk

Naïve Bayes dan Algoritma C4.5.

mahasiswa), nama, program studi,

Untuk melakukan pengukuran serta

umur, jenis kelamin, status marital,

perbandingan akurasi dalam penelitian

status pekerjaan, ip (indeks prestasi)

ini akan menggunakan framework

semester

RapidMiner versi 6.

1

sampai

dengan

ip

semester 8, dengan label keterangan tepat atau terlambat.

c. Pengolahan Data (Data Preparation) Pada tahap ini atribut data yang akan digunakan adalah sebagai berikut Atribut

Detail Penggunaan

NIM

√

ID

Nama

×

No

Program Studi

√

Nilai Model

Jenis Kelamin

√

Nilai Model

Umur

√

Nilai Model

Status Marital

√

Nilai Model

validasi serta pengukuran keakuratan

Status

√

Nilai Model

hasil

IPS 1

√

Nilai Model

menggunakan beberapa teknik yang

IPS 2

√

Nilai Model

terdapat dalam framework RapidMiner

IPS 3

√

Nilai Model

IPS 4

√

Nilai Model

IPS 5

×

No

untuk

IPS 6

×

No

model, dan Split Validation untuk

IPS 7

×

No

validasi.

IPS 8

×

No

Keterangan

√

Label Target

e. Validasi dan Evaluasi Dalam tahapan ini akan dilakukan

yang

dicapai

oleh

model

versi. 5.13 yaitu Confusion Matrix pengukuran

tingkat

akurasi

f. Penyebaran (Deployment) Hasil dari penelitian ini berupa

Tabel diatas menjelaskan mengenai

analisa

yang

mengarah

ke

DSS

atribut yang akan digunakan dalam

(Decision

Support

System),

yang

penelitian,

diharapkan

dapat

digunakan

oleh

indikator

yes

(√)

institusi

perguruan

bahan

tinggi

sebagai

pertimbangan

dalam

menentukan langkah guna mengatasi permasalahan

ketepatan

kelulusan

mahasiswa, dan juga dapat digunakan sebagai bahan rujukan untuk penelitian selanjutnya. Selain itu hasil analisa ini juga akan digunakan sebagai dasar perancangan

sebuah

pengambilan

keputusan

melakukan

sistem

idemtifikasi

guna ketepatan

dan ratio perbandingan yang berbeda-

IV. Hasil Pengujian

a. Pembahasan model Naïve Bayes Pengaturan

dan

serta

framework

Berdasarkan sembilan kali pengujian yang dilakukan dengan metode sampling

kelulusan mahasiswa.

operator

c. Hasil Komparasi

penggunaan

parameter

RapidMiner

beda dari data training dan data testing dengan menggunakan kedua metode

dalam

diatas,

didapatkan

sangat

sebagai berikut:

hasil

pengujian

berpengaruh terhadap akurasi dan model

yang

terbentuk,

sebagai

contoh dalam penggunaan operator metode naïve bayes dibawah ini.

Tabel menampilkan

perbandingan hasil

pengujian

diatas dari

metode naïve bayes dan C4.5 dengan metode sampling yang bervariasi, serta ratio penggunaan data training yang bertahap, mulai dari 10% hingga 90%

b. Pembahasan model Algoritma C4.5 Serupa membangun

dengan model

proses

dalam

naïve

bayes,

pengaturan dan penggunaan operator serta parameter pada model C4.5 juga sangat berpengaruh terhadap akurasi yang dihasilkan. Berikut desain model C4.5 yang akan digunakan.

dari keseluruhan 1919 data mahasiswa yang tersedia di dataset. Dan dapat disimpulkan bahwa metode sampling Linear serta metode algortima C4.5 memiliki tingkat akurasi yang lebih baik dalam melakukan prediksi ketepatan kelulusan mahasiswa.

V. KESIMPULAN

VI. DAFTAR PUSTAKA

Berdasarkan hasil penelitian yang telah dilakukan maka dapat diambil beberapa kesimpulan, antara lain: 1. Dalam melakukan prediksi tingkat ketepatan

kelulusan

mahasiswa,

dengan menggunakan pemodelan metode Decision Tree didapatkan tingkat akurasi tertinggi sebesar 82.43%, parameter

dengan Split

menggunakan Relative

dan

Sampling Type Linear, sedangkan pada pemodelan metode Naïve Bayes memperoleh rata-rata tingkat akurasi tertinggi sebesar 74.09%, dengan menggunakan parameter Split Relative dan Sampling Type Stratified. Oleh karena itu dapat disimpulkan berdasarkan tingkat akurasi, bahwa pemodelan metode Decision Tree lebih baik dalam melakukan

prediksi

ketepatan

kelulusan mahasiswa pada data penelitian mahasiswa strata 1 (S1) Fakultas

Ilmu

Komputer

Universitas

Dian

Nuswantoro

angkatan 2008 dan 2009. 2. Aplikasi

yang

dibangun

berdasarkan hasil analisa dengan menggunakan RapidMiner, dapat digunakan

sebagai

Decision

Support System (DSS) atau alat bantu pengambilan keputusan bagi pihak Fakultas Ilmu Komputer Universitas Dian Nuswantoro, guna merancang serta mempersiapkan langkah-langkah strategis dalam menyikapi permasalahan ketepatan kelulusan mahasiswa.

[1] Azwar, S. (2004). Penyusunan Skala Psikologi. Yogyakarta: Pustaka pelajar. [2] Balagatabi, Z. N. (2012). Comparison of Decision Tree and Naïve Bayes Methods in Classification of Researcher’s Cognitive Styles in Academic Environment. Journal of Advances in Computer Research. [3] Basuki, A., & Syarif, I. (2004). Modul Ajar Decision Tree. Surabaya: PENS-ITS. [4] Berry, M. J., & Linoff, G. S. (2004). Data Mining Techniques. New Jersey: John Willey and Sons Inc. [5] Darmawan, A. (2012). Pembuatan Aplikasi Data Mining untuk Memprediksi Masa Studi Mahasiswa Menggunakan Algoritma K-Nearest Neighborhood. Digilab Unikom. [6] Gorunescu, F. (2011). Data Mining: Concepts, Models, and Techniques. Verlag Berlin Heidelberg: Springer. [7] Hamidah, I. (2012). Aplikasi Data Mining untuk Memprediksi Masa Studi Mahasiswa Menggunakan Algoritma C4.5. Digilab Unikom. [8] Han, J., & Kamber, M. (2006). Data Mining Concepts and Techniques. San Francisco: Mofgan Kaufann Publishers. [9] Karamouzis, T. S., & Vrettos, A. (2008). An Artificial Neural Network for Predicting Student Graduation Outcomes. Preceeding of World Congress on Engineering and Computer Science. [10] Kusrini, & Luthfi, E. T. (2009). Algoritma Data Mining. Yogyakarta: Penerbit ANDI. [11] Larose, D. T. (2005). Discovering Knowledge in Databases. New Jersey: John Willey and Sons Inc.

[12] Larose, D. T. (2006). Data Mining Methods and Models. New Jersey: John Wiley and Sons. [13] Latifah, E. (2013). Perancangan Sistem Klasifikasi Masa Studi Mahasiswa Menggunakan Data Mining Berbasis Algoritma ID3. Digilab Unikom. [14] Meinanda, M. H., Annisa, M., Muhandri, N., & Suryadi, K. (2009). Prediksi Masa Studi Sarjana dengan Artificial Neural Network. Internetworking Indonesia Journal, 31-35. [15] Munir, R. (2010). Matematika Diskrit. Bandung: Informatika Bandung. [16] Nuswantoro, U. D. (2006). Peraturan Akademik. [17] Prasetyo, E. (2012). Data Mining Konsep dan Aplikasi menggunakan Matlab. Yogyakarta: Penerbit ANDI. [18] Quadril, M. N., & Kalyankar, N. V. (2010). Drop Out Feature of Student Data for Academic Performance Using Decision Tree Techniques. Global Journal of Computer Science. [19] Ridwan, M., Suyono, H., & Sarosa, M. (2013). Penerapan Data MiningUntuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier. Jurnal EECCIS, 59-63. [20] Santosa, B. (2007). Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis. Surabaya: Graha Ilmu. [21] Shearer, C. (2000). The CRISP-DM Model: The New Blueprint for

Data. Journal of Data Warehousing. [22] Shereker, S. S., & Patil, T. R. (2013). Performance Analysis of Naive Bayes and J48 Classification Algorithm for Data Classification. International Journal Of Computer Science And Applications. [23] Siregar, A. R. (2006). Motivasi Belajar Mahasiswa ditinjau dari Pola Asuh. USU Repository. [24] Sivakumari, Priyadarsini, & Amudha. (2009). Accuracy Evaluation of C4.5 and Naïve Bayes Classifiers Using Atribute Ranking Method. [25] Utdirartatmo, F. (2005). Teori Bahasa dan Otomata. Yogyakarta: Graha Ilmu. [26] Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining Machine Learning Tools and Techniques. Burlington: Morgan Kaufmann Publishers. [27] Yingkuachat, J., Praneetpolgrang, P., & Kijsirikul, B. (2007). An Application of the Probabilistic Model to the Prediction of Student Graduation Using Bayesian Belief Networks. ECTI Transaction on Computer and Technology.

PERBANDINGAN KINERJA METODE KLASIFIKASI DATA MINING MENGGUNAKAN NAÏVE BAYES DAN ALGORITMA C4.5 UNTUK PREDIKSI KETEPATAN WAKTU KELULUSAN MAHASISWA

Recommend Documents