JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print)
1
Prediksi Nilai Mata Kuliah Berdasarkan Nilai Prasyarat Menggunakan Metode Support Vector Regression
M. Rizal Syah Karim, Hari Ginardi, dan Chastine Fatichah Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember (ITS) Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia e-mail:
[email protected]
Abstrak—Mata kuliah prasyarat adalah mata kuliah yang harus diambil sebelumnya untuk menempuh suatu mata kuliah lainnya. Suatu mata kuliah lanjut biasanya membutuhkan satu atau lebih mata kuliah prasyarat. Prestasi mahasiswa dalam mata kuliah prasyaratnya dipertimbangkan sebagai indikator dari kemampuan mereka dalam beberapa mata kuliah selanjutnya. Dalam penelitian ini, dilakukan prediksi terhadap nilai mata kuliah mahasiswa dari mata kuliah sebelumnya. Support Vector Regression (SVR) dipilih sebagai metode machinelearning untuk memprediksi nilai mata kuliah berdasarkan nilai mata kuliah prasyarat. Pada penelitian ini, kinerja SVR untuk memprediksi nilai dievaluasi dengan membandingkan nilai hasil prediksi dengan nilai sebenarnya, kemudian Mean Square Error (MSE) dan Pearson correlation coefficient dihitung untuk beberapa dataset tertentu. Hasil evaluasi menunjukkan bahwa nilai MSE sebesar 0.205 dengan lima mata kuliah prasyarat, nilai MSE 0.32 dengan empat mata kuliah prasyarat, nilai MSE 0.35 dengan tiga mata kuliah prasyarat, nilai MSE 0.91 dengan dua mata kuliah prasyarat dan nilai MSE 1.069 dengan satu mata kuliah prasyarat. Pearson correlation coefficient menunjukkan korelasi yang lemah antara mata kuliah prasyarat dengan mata kuliah yang dievaluasi. Pearson correlation coefficient bernilai 0.5 untuk lima mata kuliah prasyarat, 0.36 untuk empat mata kuliah prasyarat, 0.32 untuk tiga mata kuliah prasyarat, 0.27 untuk dua mata kuliah prasyarat dan 0.22 untuk satu mata kuliah prasyarat. Kata Kunci—Educational Data Mining, Prediksi Nilai, Support Vector Regression
E
I. PENDAHULUAN
ducational Data Mining (EDM) merupakan hal yang cukup penting di dunia pendidikan. Tujuan utama dari EDM adalah untuk membangun model komputasional serta tools nya dalam menggali data yang terdapat dalam dunia pendidikan. Penggalian data di dunia pendidikan (EDM) merupakan hal penting karena penyelenggara pendidikan bisa mendapatkan informasi terkait dari data yang berjumlah besar dan beragam. Oleh karena itu diperlukan metode yang baik bukan hanya dalam mengolah data tetapi juga dalam memperoleh informasi yang tersimpan dalam data tersebut. Salah satu aplikasi dari penggalian data dalam dunia pendidikan ini adalah mencari variabel yang berhubungan dengan nilai akademik. Nilai merupakan parameter dari penilaian sukses atau tidaknya siswa. Oleh karena itu, dengan diketahuinya variabel yang berhubungan dengan nilai akademik siswa, dapat membantu penyelenggara pendidikan
ataupun siswa dalam melakukan tindakan ke depan yang sesuai. Di dalam tingkat level pendidikan yang lebih tinggi yakni tingkat universitas, mata kuliah prasyarat acapkali diisi dengan materi dasar dimana materi tersebut akan digunakan dalam mata kuliah semester-semester selanjutnya. Matakuliah prasyarat adalah matakuliah yang merupakan persyaratan untuk suatu matakuliah yang diprasyarati. Apabila suatu matakuliah mempunyai matakuliah prasyarat tertentu, maka pengambilannya hanya dibenarkan setelah persyaratannya dipenuhi. Pada tugas akhir ini, dipilih metode Support Vector Regression (SVR) sebagai metode machine-learning untuk memprediksi nilai mata kuliah berdasarkan nilai prasyarat. II. KAJIAN PUSTAKA Pada bab ini, akan dibahas tinjauan yang digunakan pada penelitian ini, yaitu: Mata Kuliah Prasyarat, Support Vector Machine, Support Vector Regression, Fungsi Kernel, Korelasi. A. Mata Kuliah Prasyarat Mata kuliah prasyarat adalah mata kuliah yang merupakan persyaratan untuk suatu mata kuliah yang diprasyarati. Apabila suatu mata kuliah mempunyai mata kuliah prasyarat tertentu, maka pengambilannya hanya dibenarkan setelah persyaratannya dipenuhi. Dengan demikian apabila seorang mahasiswa membatalkan suatu mata kuliah prasyarat, semua mata kuliah yang diprasyarati juga dinyatakan batal. Dalam Gambar 1, dicontohkan bahwa untuk dapat mengambil mata kuliah analisis data multivariat, mahasiswa harus lulus terlebih dahulu mata kuliah statistika komputasional. Untuk dapat mengambil mata kuliah statistika komputasional, maka diwajibkan lulus terlebih dahulu mata kuliah aljabar linier. B. Support Vector Machine Support Vector Machine (SVM) adalah algoritma klasifikasi yang berbasis pada statistical learning theory dan merupakan metode yang bersifat supervised. Pada proses pelatihannya, SVM mencari sebuah fungsi hyperplane sebagai pemisah antara dua kelas yang paling optimal, yaitu yang memiliki jarak terjauh dari kedua kelas tersebut. SVM adalah salah satu teknik yang relative baru dibandingkan dengan teknik lain, tetapi memiliki performansi yang lebih baik di berbagai bidang aplikasi seperti bioinformatics, pengenalan tulisan tangan, klasifikasi teks dan lain sebagainya [1].
JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print)
Gambar. 1. Contoh Pohon Prasyarat Mata Kuliah Teknik Informatika ITS
C. Support Vector Regression Support Vector Regression (SVR) merupakan penerapan metode SVM untuk kasus regresi. Dalam kasus regresi output berupa bilangan riil atau kontinu (Smola dan Scholkopf 2004). Tujuan utama SVR adalah menemukan sebuah fungsi regresi y = f(x) yang memiliki deviasi yang besar pada rentang ε sedemikian hingga mampu memprediksi nilai aktual yi untuk semua data latih. Selain dari pada deviasi yang besar pada rentang ε, secara bersamaan SVR mencari persamaan regresi yang sedatar mungkin. Masudnya adalah fungsi regresi yang mendekati dengan nilai sebenarnya. Algoritma SVR mencoba menempatkan sebuah tabung disekitar data seperti yang terlihat pada Gambar 2. ε adalah sebuah parameter yang mewakili radius tabung disekitar fungsi regresi. Wilayah region yang dikelilingi oleh tabung disebut zona ε-insensitive. Pendek kata, SVR akan mentolelir adanya kesalahan (error) selama kesalahan tersebut kurang dari ε. Sebaliknya jika kesalahan terjadi melebihi ε, maka akan dikenakan penalti [4]. Didalam SVR, fungsi regresi dinyatakan dalam persamaan umum. f 𝑥 = 𝑤, 𝑥 + 𝑏 f 𝑥 = 𝑤, 𝑥 + 𝑏 (1) Dimana (,) adalah operator dot product dalam X. Yang dimaksud sebagai kedataran fungsi dalam (1) adalah mencari nilai w seminimal mungkin. Salah satu caranya adalah dengan meminimalkan norm seperti ||w||2 . Secara matematis dapat ditulis dalam permasalahan convex optimization sebagai berikut. 1 𝑚𝑖𝑛 2 𝑤 2 (2) 𝑦𝑖 − 𝑤 , 𝑥𝑖 − 𝑏 ≤ ε 𝑠𝑢𝑏𝑗𝑒𝑐𝑡 𝑡𝑜 (3) 𝑤 , 𝑥𝑖 − 𝑦𝑖 + 𝑏 ≤ ε Persamaan tersebut digunakan dengan asumsi bahwa fungsi regresi f(x) dapat mengaproksimasi semua titik (xi, yi) dengan nilai presisi berada dalam zona ε-insensitive. Dalam kasus ini diasumsikan bahwa semua titik ada dalam rentang f(x) ± ε. Kondisi yang demikian disebut sebagai permasalahan convex optimization yang feasible. Sedangkan pada kenyataannya tidak selalu demikian. Ada kemungkinan beberapa titik yang mungkin berada diluar area f(x) ± ε. Untuk mengatasi permasalahan tersebut dapat ditambahkan sebuah variabel slack yaitu ξi dan ξi ∗ sebagai batasan baru (infeasible constraint) dalam problem optimasi [5] 1 l min 2 | 𝑤 |2 + 𝐶 𝑖=1 (ξi + ξi ∗ ) (4)
2
yang memenuhi 𝑦𝑖 − (𝑤. 𝑥𝑖 ) − 𝑏 ≤ ε + ξi (5) 𝑤. 𝑥𝑖 + 𝑏 − 𝑦𝑖 ≤ ε + ξi ∗ (6) ξ + ξ∗ ≥ 0 (7) Konstanta C > 0 menyatakan harga tawar menawar (trade off) antara kedataran fungsi dan batas toleransi kesalahan (error). Semua kesalahan lebih besar daripada ε akan dikenakan penalti sebesar C. Jika nilai C terlalu besar, itu artinya model SVR terlalu ketat akan toleransi error sehingga setiap kesalahan yang nilainya melebihi ε akan dikenakan penalti yang besar. Sebaliknya, jika nilai C terlalu kecil, maka rentang toleransi kesalahan (ε) akan bernilai besar sehingga terlalu beresiko pada hasil prediksi model. Dikatakan beresiko karena hasil prediksi yang menyimpang dengan harga sebenarnya selama masih berada pada zona ε-insensitive tidak dianggap sebagai error (diasumsikan zona ε-insensitive memiliki rentang yang sangat lebar). Hal ini berkaitan dengan fungsi kerugian ε-insensitive yang diusulkan Vapnik [4] sebagai berikut. 0, 𝑖𝑓 ξ ≤ ε (8) |ξ|ε ∶= ξ − ε, otherwise Permasalahan convex optimization pada (4) dapat diselesaikan dengan fungsi lagrange menjadi bentuk berikut 2 1 l l 𝐿 ∶= 𝑤 + 𝐶 𝑖=1 ξ + ξ∗ − 𝑖=1 𝜂𝑖 ξi + 𝜂𝑖 ∗ ξi ∗ − 2 l 𝑖=1 𝑎𝑖
ε + ξi − 𝑦𝑖 + 𝑤, 𝑥𝑖 + 𝑏 𝑦𝑖 + 𝑤, 𝑥𝑖 − 𝑏
−
l ∗ 𝑖=1 𝑎𝑖
ε + ξi ∗ −
(9) Dimana L adalah Lagrangian dan 𝜂𝑖 , 𝜂𝑖 ∗ , 𝑎𝑖 , 𝑎𝑖 ∗ adalah lagrange multiplier. Oleh karena itu, variabel dual pada (9) harus memenuhi batasan berikut 𝜂𝑖 , 𝜂𝑖 ∗ , 𝑎𝑖 , 𝑎𝑖 ∗ > 0 (10) Selain itu pula juga memenuhi kondisi turunan partial L terhadap variabel primal ( w, b, 𝜉𝑖 , 𝜉𝑖 ∗ ) sebagai berikut. 𝜕𝑏 𝐿 = l𝑖=1(𝑎𝑖 ∗ − 𝑎𝑖 ) = 0 (11) 𝜕𝑤 𝐿 = 𝑤 − l𝑖=1(𝑎𝑖 ∗ − 𝑎𝑖 )𝑥𝑖 = 0 (12) 𝜕ξ i ∗ 𝐿 = 𝐶 − 𝑎𝑖 (∗) − 𝜂𝑖 (∗) = 0 (13) Dengan melakukan subtitusi (11), (12) dan (13) kedalam (1) membangun bentuk permasalahan optimasi dual sebagai berikut. 1 − 2 l𝑖,𝑗 =1(𝑎𝑖 − 𝑎𝑖 ∗ )(𝑎𝑗 − 𝑎𝑗 ∗ ) 𝑥𝑖 , 𝑥𝑗 max − ε l𝑖,𝑗 =1 (𝑎𝑖 + 𝑎𝑖 ∗ ) + l𝑖,𝑗 =1 𝑦𝑖 (𝑎𝑖 + 𝑎𝑖 ∗ ) (14) l
𝑠𝑢𝑏𝑗𝑒𝑐𝑡 𝑡𝑜 𝑖,𝑗 =1
𝑎𝑖 − 𝑎𝑖 ∗ = 0 𝑎𝑛𝑑 𝑎𝑖 , 𝑎𝑖 ∗ 𝜖 [0, 𝐶]
Dengan menurunkan (14) telah mengeliminasi variabel dual 𝜂𝑖 , 𝜂𝑖 ∗ melalui formula 𝜂𝑖 (∗) = 𝐶 − 𝑎𝑖 (∗) yang didapatkan dari (13). Dari (12) didapat bahwa 𝑤 = l𝑖=1(𝑎𝑖 ∗ − 𝑎𝑖 )𝑥𝑖 sehingga f 𝑥 = 𝑤. 𝑥 + 𝑏 = l𝑖=1 𝑎𝑖 − 𝑎𝑖 ∗ 𝑥𝑖 , 𝑥 + 𝑏 (15) Dimana 𝑥𝑖 adalah Support Vector (SV) yaitu titik-titik yang berada tepat pada f(x) ± ε. SV ini merupakan point data yang paling informative yang memampatkan isi informasi dari sekumpulan data training sehingga SV inilah yang dapat mewakili fungsi SVR secara keseluruhan. Nilai bias b dihitung dengan menggunakan prinsip Karush-Kuhn-Tucker (KKT) sebagai berikut
JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print)
3
berlawanan arah [11]. Misalkan korelasi antara variabel X dan Y (rX,Y) bernilai positif mengartikan bahwa jika nilai X naik maka nilai Y juga naik, sedangkan jika nilai X turun maka nilai Y juga turun. Misalkan korelasi antara variabel X dan Y (rX,Y) bernilai negatif mengartikan bahwa jika nilai X naik maka nilai Y juga turun, sedangkan jika nilai X turun maka nilai Y juga naik. Nilai korelasi (r) diukur dari korelasi Pearson untuk 2 buah variabel X dan Y dengan jumlah data sebesar N dirumuskan pada persamaan sebagai berikut. 𝑟𝑋,𝑌 =
Gambar. 2. Konsep Support Vector Regression [3]
b = 𝑦𝑖 − 𝑤, 𝑥𝑖 − ε, 0 ≤ 𝑎𝑖 ≤ C (16) b∗ = 𝑦𝑖 − 𝑤, 𝑥𝑖 + ε, 0 ≤ 𝑎𝑖 ∗ ≤ C (17) Jika dimensi data berukuran besar, permasalahan kompleksitas komputasional dapat diatasi dengan menerapkan fungsi kernel pada (15) menggantikan dot product dari vektor input sebagai berikut. 𝑓 𝑥, 𝑎𝑖 , 𝑎𝑖 ∗ = l𝑖=1(𝑎𝑖 − 𝑎𝑖 ∗ ) 𝐾 𝑥𝑖, 𝑥𝑗 + 𝑏 (18) dimana 𝐾 𝑥𝑖, 𝑥𝑗 = 𝜑(𝑥𝑖 )𝜑(𝑥𝑗 ) adalah fungsi kernel. D. Fungsi Kernel Fungsi yang lebih ekspresif biasanya digunakan untuk mengolah data yang kompleks dibandingkan dengan fungsi linear biasa. SVR mentransformasikan input yang non-linear ke dalam ruang fitur yang dimensinya lebih tinggi. Hal inilah yang dilakukan oleh kernel [1]. Kemudian, SVR akan melakukan perhitungan linear untuk menemukan hyperplane yang optimal pada ruang fitur tersebut. Kernel akan memproyeksikan data ke dalam ruang fitur berdimensi tinggi untuk menaikkan kemampuan komputasi dari mesin pembelajaran linear. Beberapa bentuk fungsi kernel yang digunakan dalam tugas akhir ini, antara lain, 1. Fungsi Linier dengan persamaannya adalah K(xi, xj) = xiTxj 2. Fungsi Polinomial dengan persamaannya adalah K(xi, xj) = (γxiTxj + r)d , γ > 0 3. Fungsi Gaussian / Radial Basis Function(RBF) dengan persamaannya adalah K(xi, xj) = exp(-γ||xi-xj||2), γ > 0 4. Fungsi Sigmoid dengan persamaannya adalah K(xi, xj) = tanh(γxiTxj + r) E. Korelasi Analisis korelasi dimaksudkan untuk mengetahui seberapa kuatkah hubungan antara satu atau beberapa variabel dengan suatu variabel lain. Nilai korelasi (ρ) berkisar pada interval -1 ≤ ρ ≤ 1. Jika korelasi bernilai positif, maka hubungan antara dua variabel bersifat searah. Sebaliknya, jika korelasi bernilai negatif, maka hubungan antara dua variabel bersifat
𝑁 𝑁
𝑋 2−
𝑋𝑌−
𝑋 ( 𝑋) 𝑋 2 𝑁 𝑌2−
𝑌 2
(19)
Sementara itu, pada keadaan dimana terdapat lebih dari 2 variabel bebas, korelasi juga dapat dicari nilainya dengan pola yang sama. Contohnya adalah untuk mencari korelasi ketika terdapat 7 variabel bebas dan 1 variabel terikat, dapat dipergunakan persamaan berikut. 𝑅𝑥1,𝑥2,…,𝑥𝑖 .𝑦 = 𝑦2 = 𝑥1 𝑦 =
𝑌2 −
𝑏 1 . 𝑥 1 𝑦+𝑏 2 . 𝑥 2 𝑦+ … + 𝑏 7 . 𝑥 𝑖 𝑦 𝑦2 (
𝑋𝑖 𝑌 −
𝑌)2 𝑛 ( 𝑋 𝑖 )( 𝑌) 𝑛
(20) (21) (22)
Dimana : n = Jumlah data dari setiap variabel 𝑋𝑖 = Jumlah data Xi 𝑌 = Jumlah data Y 𝑌 2 = Jumlah data Y2 𝑋𝑖 𝑌 = Jumlah dari Xi.Y b1,…,b7 = koefisien regresi masing-masing variabel
III. METODOLOGI Pada bab ini, akan dibahas metodologi yang digunakan pada penelitian ini, yaitu: Gambaran umum proses, Data dan Evaluasi Kinerja A. Gambaran Umum Proses Pada Gambar 3 dapat dilihat diagram alir proses perancangan perangkat lunak. Tahap awal adalah setelah dilakukan pengumpulan data, dilakukan pemilihan data. Pemilihan data disini, dikarenakan data yang diambil merupakan data mahasiswa yang didapat dari sim akademik (integra) Teknik Informatika ITS yang terbatas dari angkatan 2009 hingga 2012. Untuk beberapa angkatan pun data yang disediakan oleh integra cukup terbatas karena data mahasiswa yang sudah lulus dihapus oleh sistem. Oleh karena itu apabila terdapat data yang missing value, data tersebut akan dibuang. Setelah melakukan data cleansing, maka data dibagi menjadi dua yakni data latih dan data uji dengan prosentase masingmasing 70% untuk data latih dan 30% untuk data uji. Data latih terdiri dari nilai prasyarat sebagai variabel prediktor dan satu nilai yang diprasyarati sebagai variabel respon. Data uji sama seperti data latih berisi beberapa nilai prasyarat dan nilai yang diprasyarati . Data latih diproses dengan metode SVR. Perancangan SVR dibantu dengan menggunakan pustaka LibSVM [7].
JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print)
4
Tabel 1. Dataset Nilai Mahasiswa Prasyarat
Prediksi
Jumlah record
DataWarehouse
69
PMJ
48
Dataset 3
STI, Basdat, BDL, PAAL, DatMin Sisdig, Orkom, Sisop, Jarkom ASD, Grafkom, Jarkom
Jarmul
106
Dataset 4
Sisdig, Orkom
Sisop
620
Dataset 5
RPL
APS
441
Nama Dataset Dataset 1 Dataset 2
satu metode yang banyak digunakan dalam mengevaluasi data uji adalah Mean Squared Error (MSE). Dimana metode ini dinilai memiliki karakter yang sesuai dalam mengevaluasi hasil prediksi yang berupa nilai akhir mahasiswa. Model yang terbaik adalah model dengan nilai MSE terkecil (paling mendekati 0) [6]. Secara matematis MSE dapat dirumuskan dengan Gambar. 3. 2. Diagram Alir Proses Prediksi Nilai Menggunakan SVR
LibSVM menawarkan fungsi untuk membuat model SVR dengan berbagai macam formulasi dan tipe kernel. Formulasi yang ada dalam LibSVM diantaranya C-Support Vector Classifier(C-SVC), v-Support Vector Classifier(v-SVC),εSupport Vector Regression(ε-SVR) dan v-Support Vector Regression(v-SVR). Pilihan kernel yang ada dalam LlibSVM antara lain Linier, Polynomial, RBF dan Sigmoid. Terdapat beberapa pilihan kernel yang tersedia dalam metode ini, akan diujikan semua kernel dan dicari hasil terbaik. Untuk parameter seperti nilai C, epsilon dan gamma digunakan nilai default dari program. Setelah dilakukan proses pelatihan, maka akan didapatkan model prediksi. Kemudian data uji akan diproses menggunakan model untuk memprediksi nilai yang diprasarati pada masing-masing record. Sedangkan untuk menghitung nilai korelasi masingmasing dataset digunakan software SPSS 17. B. Data Data masukan pada Tugas Akhir ini adalah kumpulan data yang berisi nilai mahasiswa yang diperoleh melalui sim akademik(integra) Teknik Informatika ITS. Format data yang didapat melalui sim akademik dalam bentuk nilai huruf A, AB, hingga E. Nantinya nilai ini akan dikonversi menjadi angka 7, 6, hingga 1 dimana masing-masing angka mewakili nilai huruf. Nilai tersebut terdiri dari nilai-nilai mata kuliah prasyarat sebagai variabel prediktor dan nilai mata kuliah yang diprasyarati sebagai kelas atribut yang akan diprediksi atau variabel respon seperti yang ditunjukkan pada Tabel 1.. Selain data dari sim akademik, dengan menggunakan metode dan proses yang sama pada saat menguji dataset nilai mahasiswa, digunakan juga data dari UCI [9] yakni data pyrimidines dan triazines. C. Evaluasi Kinerja Dalam mengetahui performa metode penggalian data yang digunakan maka dilakukan evaluasi dari hasil data uji yang dihasilkan. Metode yang digunakan dalam mengevaluasi data uji banyak dan mempunyai karakter masing-masing. Salah
MSE
n
i 1
( xi fi ) 2 n
(23)
Dimana n merupakan jumlah iterasi, dan variabel x merupakan nilai prediksi yang dihasilkan model sedangkan variabel f merupakan nilai sebenarnya yang diinginkan. IV.
HASIL DAN PEMBAHASAN
Pada bab ini, akan dibahas hasil dari ujicoba yang dilakukan pada prediksi nilai menggunakan SVR. A. Ujicoba MSE dataset UCI Dengan jumlah feature dan record masing-masing sebanyak 27 dan 74 untuk dataset pyrimidines didapatkan hasil MSE terbaik pada kernel RBF yakni sebesar 0,002. Sedangkan untuk dataset triazines, dengan jumlah feature dan record masing-masing sebanyak 60 dan 186 didapatkan hasil MSE terbaik pada kernel RBF sebesar 0,001. B. Ujicoba MSE dataset nilai mahasiswa Untuk setiap pasangan data masukan dan data keluaran pada setiap parameter akan dihitung kesalahan hasil prediksi menggunakan Mean Square Error (MSE) yang dijelaskan pada bab 2.4. Dengan menggunakan parameter C = 1, ε = 0,001, pada setiap dataset dihitung rata-rata MSE. Jika dianalisa, model prediksi yang menunjukkan MSE terendah dari semua kernel adalah dengan menggunakan kernel RBF dengan nilai MSE sebesar 0,58. Hal ini memang sesuai dengan panduan SVM yang menjelaskan bahwa kernel RBF memang lebih unggul dalam kasus-kasus machine learning pada umumnya. Tabel 2 menunjukkan nilai MSE terbaik pada semua kernel dengan jumlah feature dan record yang ada pada tiap dataset. Dari Tabel 2 dapat dilihat bahwa secara umum, semakin banyak jumlah feature atau dalam hal ini jumlah nilai prasyarat yang digunakan dalam prediksi, maka nilai MSE semakin kecil. Begitu pula sebaliknya, semakin sedikit jumlah feature atau dalam hal ini nilai prasyarat yang digunakan dalam prediksi, maka nilai MSE semakin besar.
JURNAL TEKNIK POMITS Vol. 2, No. 1, (2013) ISSN: 2337-3539 (2301-9271 Print) Tabel 2. Hasil Uji MSE terbaik pada semua kernel dataset nilai Nama Dataset Dataset 1 Dataset 2 Dataset 3 Dataset 4 Dataset 5
Jumlah feature
Jumlah record
MSE terbaik
5 4 3 2 1
69 48 106 620 441
0,205 0,32 0,35 0,91 1,05
C. Ujicoba hasil korelasi dataset nilai mahasiswa Uji coba dilakukan dengan melakukan uji korelasi pada dataset nilai dan dilihat bagaimana korelasi antara variabel prediktor dan variabel respon antara pada tiap dataset nilai mahasiswa. Tabel 3 menunjukkan nilai MSE terbaik pada semua kernel dengan nilai korelasi yang ada pada tiap dataset. Dari Tabel 3, dapat dilihat bahwa secara umum, semakin tinggi nilai korelasi suatu dataset, maka nilai MSE semakin kecil. Begitu pula sebaliknya, semakin rendah korelasi suatu dataset, maka nilai MSE semakin besar. V.
KESIMPULAN
Berdasarkan hasil ujicoba didapatkan, bahwa metode SVR dengan kernel RBF menghasilkan rata-rata nilai MSE terbaik dari semua kernel, dengan rata-rata nilai MSE yakni 0,58. Korelasi antara nilai prasyarat dengan nilai yang diprasyarati rendah yakni rata-rata sekitar 0,34. Dari hasil ujicoba juga didapatkan, semakin besar nilai korelasi maka semakin kecil nilai MSE pada hasil prediksi. Jumlah atribut prediktor (dalam hal ini jumlah mata kuliah prasyarat) yang lebih banyak dapat menghasilkan hasil prediksi menjadi lebih baik. Persebaran data yang kurang baik dapat menyebabkan kesalahan hasil prediksi yang cukup tinggi. Nilai Prasyarat bukanlah prediktor yang baik untuk memprediksi nilai. UCAPAN TERIMA KASIH Penulis M.R.S.K mengucapkan terima kasih kepada Tuhan Yang Maha Esa, keluarga penulis, dosen pembimbing, kepala jurusan, dosen dan staf Teknik Informatika, kerabat dekat, serta berbagai pihak yang telah membantu menyelesaikan penelitian ini. DAFTAR PUSTAKA
[1] Arief Budi Witarto, Dwi Handoko Anto Satriyo Nugroho. (2003) Kuliah Umum IlmuKomputer.com. [Online]. http://www.ilmukomputer.com [2] Krisantus Sembiring, "Penerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan," ITB, Bandung, 2007. [3] Shien-Tsung Chen, I-Fan Chang Pao-Shan Yu, "Support Vector Regression for real time flood stage forecasting," Journal Of Hydrology, June 2008. [4] V Vapnik, The Nature Of Statistical Learning Theory, 0387945598th ed.: Springer N, 1995. [5] Bernhard scholkopf Alex J Smola, "A tutorial on Support Vector Regression," Statistic and Computing, vol. 13, pp. 199-222, November 2004. [6] Ryan Hidayat, "Sistem Prediksi Status Gizi Balita dengan menggunakan support vector regression," BOGOR, 2013. [7] Chih-Chung and Lin, Chih-Jen Chang, "LIBSVM: A library for support vector machines," ACM Transactions on Intelligent Systems
5
Tabel 3. Hasil korelasi dengan MSE terbaik Nama Dataset Dataset 1 Dataset 2 Dataset 3 Dataset 4 Dataset 5 Rata-rata
Nilai Korelasi
MSE terbaik
0,53 0,36 0,32 0,26 0,22 0,34
0,205 0,32 0,35 0,91 1,05 0,56
and Technology, vol. 2, no. 3, pp. 27:1--27:27, 2011, Software available at url http://www.csie.ntu.edu.tw/~cjlin/libsvm. [8] Fu Jui-Hsi and Chang Jui-Hung, "A Support Vector Regressionbased Prediction of Student School Performance," 2012. [9] K. Bache and M. Lichman. (2013) Qualitative Structure Activity Relationships Data Set. [Online]. http://archive.ics.uci.edu/ml. [10] Lisa Yuli Kurniawati, "Model Prediksi Pergerakan Harga Saham menggunanakan Support Vector Regression dan Artificial Bee Colony," ITS, Surabaya, 2013. [11] Walpole R.E, Pengantar Statistika, 3rd ed. Jakarta: Gramedia.