Prosiding Seminar Nasional Manajemen Teknologi XVII Program Studi MMT-ITS, Surabaya 2 Februari 2013
KLASIFIKASI BERBASIS LVQ MENGGUNAKAN OPTIMASI LEARNING RATE UNTUK MEMILIH SISWA PESERTA OSN Wahyu Hadi Pujianto1), Mochamad Hariadi 2) dan Surya Sumpeno 3) 1) Bidang Keahlian Telematika (Kosentrasi CIO) Jurusan Tehnik Elektro, Institut Teknologi 10 November Surabaya Email:
[email protected] 2) Jurusan Teknik Elektro-FTI Institut Teknologi 10 November Surabaya 3) Jurusan Teknik Elektro-FTI Institut Teknologi 10 November Surabaya
ABSTRAK Olimpiade Sains Nasional (OSN) pada tingkat SMA dibagi menjadi 8 bidang, yaitu matematika, fisika, biologi, kimia, ekonomi, kebumian, astronomi dan komputer. Setiap sekolah harus mengirimkan minimal 3 siswa tiap bidang olimpiade untuk mengikuti seleksi OSN tingkat kabupaten/kota, sehingga total dipilih 24 siswa berkualitas. Data terdiri dari nilai rapor dan nilai tes potensi akademik (TPA), dengan jumlah variabel adalah 14 butir. Data ini dibagi menjadi dua yaitu data training dan data testing, dipilih secara sistematik sampling, Data diklasifikasikan berbasiskan learning vector quantization (LVQ) menggunakan perubahan nilai learning rate. Hasil penelitian menunjukkan Data semi-Ideal merupakan data yang cocok untuk pelatihan data, dengan acuan : jumlah neuron = 2,5 x jumlah data training, learning rate = 0,01, diperoleh hasil klasifikasi terbaik dengan akurasi 81,30% untuk data training dan 79,20% untuk data testing. Kata kunci: Pemilihan, OSN, optimasi learning rate, LVQ
PENDAHULUAN Latar Belakang Sekolah merupakan lembaga yang bertujuan meningkatkan kualitas manusia dengan meningkatkan kualitas dan kuantitas pengetahuan yang dimilikinya. Manusia yang dididik di sekolah disebut sebagai siswa atau peserta didik, yang merupakan manusia pada fase perkembangan (tumbuh). Oleh sebab itu, pada fase ini, perlu adanya motivasi atau rangsangan untuk mempercepat siswa menguasai pengetahuan dan berkembang lebih jauh dengan mengeluarkan semua potensi yang dimilikinya. Salah satu strategi untuk memotivasi siswa adalah dengan mengikutsertakan dalam perlombaan, antara lain adalah Olimpiade Sains Nasional, mulai tingkat kabupaten, propinsi, nasional, hingga tingkat internasional. Lomba olimpiade sains (OSN) merupakan agenda tahunan yang dilaksanakan oleh kementrian pendidikan dan kebudayaan untuk sarana pemacu peningkatan kualitas pendidikan sekaligus sarana untuk menyaring peserta didik berkualitas menuju olimpiade sains internasional. Pada tingkat SMA, OSN dibagi menjadi 8 bidang, yaitu matematika, fisika, biologi, kimia, ekonomi, kebumian, astronomi dan komputer. Sekolah harus mengirimkan 3 siswa per bidang untuk mewakili sekolah di tingkat kabupaten, sehingga harus dipilih 24 siswa dengan tingkat kognitif tinggi dan tepat dengan bidang yang dilombakan. Kita tidak hanya memilih siswa dengan prioritas nilai tertinggi tetapi juga melihat kecenderungan penguasaan bidang tertentu, yang secara tidak langsung menunjukkan minatnya. Penempatan siswa pada bidang lomba yang tepat akan mendorong siswa untuk berkembang secara ISBN : 978-602-97491-6-8 C-15-1
Prosiding Seminar Nasional Manajemen Teknologi XVII Program Studi MMT-ITS, Surabaya 2 Februari 2013
maksimal dan memiliki kemungkinan besar untuk mengalahkan siswa lain yang memiliki IQ lebih tinggi tetapi tidak penempatannya tidak sesuai dengan minatnya. Lomba olimpiade untuk tingkat SMA memiliki sasaran pada siswa kelas XI dan seleksi tingkat kabupaten/kota dilaksanakan mulai bulan April. Kelas XI merupakan tahap perkembangan maksimal dari siswa sebelum terganggu/terfokuskan pada UAN, sehingga semua soal disusun mencapai materi kelas XI. Soal yang disusun walaupun merupakan materi yang telah diberikan tetapi memiliki tingkat kesulitan diatas materi di sekolah karena telah dipadukan dengan bahan pengayaan. Dengan demikian dibutuhkan siswa yang berkualitas, yakni secara bahan mentah, ditunjukkan dengan potensi akademik, dan secara kemauan belajar, ditunjukkan oleh nilai akademik (rapor). Dengan demikian, dibutuhkan alat bantu pengambilan keputusan oleh pimpinan untuk menentukan siswa yang tepat mengikuti pembinaan olimpiade di sekolah dan menghindari terjadinya konflik perebutan siswa oleh masing-masing Pembina olimpiade terkait adanya 8 bidang olimpiade dalam OSN, serta ditentukan dalam waktu sesingkat-singkatnya sehingga sesegera mungkin dapat memulai kegiatan pembinaan olimpiade. Penentuan variable yang berpengaruh Dalam SOP OSN 2012, juga dicantumkan syarat kemampuan yang harus dikuasai siswa untuk masing-masing bidang olimpiade yaitu: a) Matematika : memiliki nilai Matematika tidak kurang dari 7.5 (skala 10) b) Fisika : memiliki nilai Fisika tidak kurang dari 7.5 (skala 10) c) Kimia : memiliki nilai Kimia tidak kurang dari 7.5 (skala 10) d) Biologi ; memiliki nilai Biologi tidak kurang dari 7.5 (skala 10) e) Informatika : memiliki nilai matematika tidak kurang dari 7,0 (skala 10), dan mampu mengoperasikan perangkat komputer dengan sistem operasi windows atau linux f) Ekonomi : memiliki nilai Ekonomi dan bahasa Inggris tidak kurang dari 8,0 (skala 10), dan mampu mengoperasikan perangkat komputer dengan sistem operasi windows g) Kebumian : memiliki nilai Fisika, Kimia, Geografi masing-masing tidak kurang dari 7,0 (skala 10) h) Astronomi : memiliki nilai Fisika, Matematika, Bahasa Inggris masing-masing tidak kurang dari 7,5 (skala 10), dan mampu mengoperasikan perangkat komputer dengan sistem operasi windows atau linux. Variabel berikutnya yang menjadi pertimbangan adalah hasil Tes Potensi Akademik (TPA). Menurut William stern (dalam crow and crow, 1984) mengatakan bahwa intelegensi adalah kemampuan untuk menyesuaikan diri dengan keadaan baru atau kondisi baru dengan menggunakan alat-alat berfikir sesuai dengan tujuannya. Definisi lain dinyatakan oleh Sternberg (dalam eggen dan kauchak 1997), bahwa intelegansi sebagai tiga dimensi, yaitu; (a) kapasitas untuk memperoleh pengetahuan, (b) kemampuan untuk berfikir dan logika dalam bentuk abstrak, dan (c) kapabilitas untuk memecahkan masalah. Tes potensi akademik akan memuat hal-hal sebagai berikut: a) Intelegensi quotion (IQ) adalah tingkat kecerdasan seseorang untuk memecahkan masalah pada umumnya, khususnya dalam kecepatan melakukan perhitungan sehingga sangat mendukung dalam memahami pelajaran eksak, seperti matematika, fisika, dan kimia, serta menunjukkan kemampuan dalam hal ingatan. b) kemampuan seseorang dalam berbahasa (BA), sangat berpengaruh dalam penguasaan pelajaran bahasa, agama dan seni (kecuali seni grafis). c) kemampuan dalam tata bilangan dan tata hitungan (BT), sangat berpengaruh dalam penguasaan pelajaran eksak.
ISBN : 978-602-97491-6-8 C-15-2
Prosiding Seminar Nasional Manajemen Teknologi XVII Program Studi MMT-ITS, Surabaya 2 Februari 2013
d) logika abstrak (LA) yaitu kemampuan berpikir logis dengan menggunakan simbol-simbol, khususnya untuk pelajaran eksak, biologi, dan komputasi. e) kemampuan verbal (KV) yaitu kemampuan berpikir yang terikat pada bahasa. f) kemampuan non verbal (KNV) yaitu kemampuan berpikir seseorang yang tidak terikat dengan bahasa. Metode Learning Vector Quantization (LVQ) Menurut Jang, et al. (1997), LVQ merupakan metode klasifikasi data adaptif berdasarkan pada data pelatihan dengan informasi kelas yang diinginkan. Walaupun merupakan suatu metode pelatihan supervised tetapi LVQ menggunakan teknik data clustering unsupervised untuk pra proses data dan penentuan cluster centernya. Arsitektur jaringan LVQ hampir menyerupai suatu jaringan pelatihan kompetitif kecuali pada masingmasing unit outputnya yang dihubungkan dengan suatu kelas tertentu. Dengan demikian dapat disimpulkan bahwa Learning Vector Quantization (LVQ) adalah salah satu metode jaringan syaraf tiruan yang digunakan dalam klasifikasi dan pengenalan pola. Pada metode ini, masing-masing unit output mewakili kategori atau kelas tertentu. Pada jaringan LVQ, proses pembelajaran atau pelatihan harus dilakukan terlebih dahulu. dalam proses pembelajaran, vector input yang diberikan akan terklasifikasikan secara otomatis. Apabila beberapa vector input memiliki jarak yang sangat berdekatan, maka vector-vektor input tersebut akan dikelompokkan dalam kelas yang sama. Jaringan LVQ tidak sekedar merupakan bentuk dari competitive learning algorithm, namun LVQ memiliki target artinya jaringan LVQ belajar mengklasifikasikan vektor masukan ke kelas target yang ditentukan oleh pengguna. X1 W21
W11 W12 W13
X2
│X-W1│
Y_in1
F1
Y1
W22 X3
W23 W14
X4
W24 W15
X5 W16
W25
│X-W2│
Y_in2
F2
Y2
W26
X6 Gambar 1 Arsitektur Jaringan LVQ
Pada gambar di atas, ditunjukkan contoh arsitektur jaringan LVQ dengan enam neuron pada lapisan masukan dan dua neuron pada lapisan keluaran. Proses yang terjadi pada setiap neuron adalah mencari jarak vektor masukan ke bobot yang bersangkutan (W1 dan W2). W1 adalah vektor bobot yang menghubungkan setiap neuron pada lapisan masukan ke neuron
ISBN : 978-602-97491-6-8 C-15-3
Prosiding Seminar Nasional Manajemen Teknologi XVII Program Studi MMT-ITS, Surabaya 2 Februari 2013
pertama pada lapisan keluaran, sedangkan W2 adalah vektor bobot yang menghubungkan setiap neuron pada lapisan masukan ke neuron kedua pada lapisan keluaran. Fungsi aktivasi F1 akan memetakan Y_in1 ke Y1=1 apabila │X-W1│>│X-W2│ dan Y1=0, dan sebaliknya fungsi aktivasi F2 akan memetakan Y_in2 ke Y2=1 apabila │X-W2│>│X-W1│ dan Y2=0. Optimasi Learning rate LVQ pada awalnya menggunakan konsep “fixed learning rate” yaitu nilai learning rate yang tetap selama proses pelatihan. Hal ini merupakan suatu kelemahan, karena terjadi perlakuan sama pada proses training saat vektor bobot bergerak “benar” dengan vektor bobot bergerak “salah”. Hal ini diatasi dengan mengunakan konsep “adaptive learning rate” yang artinya nilai learning rate berubah setiap saat berdasarkan pergerakan vektor bobot, meliputi perkecil nilai learning rate saat pergerakan vektor bobot “benar” dan sebaliknya, perbesar nilai learning rate saat pergerakan vektor bobot “salah” Konsep ini kemudian dikenal “optimasi learning rate LVQ” (OLVQ).
Algoritma LVQ Algoritma ini akan mengubah bobot i neuron yang paling dekat dengan vektor masukan, semisal vektor masukan x = ( x1 , x2 , x3 ) vector bobot keluaran neuron ke-j adalah w j = ( w1 j , w2 j ,..., wnj ), Cj adalah kelas yang diwakili oleh neuron ke-j, T adalah kelas yang benar untuk masukan x dan jarak Euclidean antara vector masukan dan vector bobot dinyatakan oleh:
d ( j)
n
(x w ) i 1
i
2
ij
Dengan xi wij ((x1 w1j ),(x2 w2 j ),(x3 w3 j ),...(xn wnj )) Perubahan bobot neuron dilakukan dengan langkah-langkah berikut: 1. Inisialisasi vektor bobot dan laju pembelajaran α, jika kondisi untuk berhenti salah, laksanakan langkah 2 sampai 6 2. Untuk setiap vector masukan x , laksanakan langkah 3 dan langkah 4 3. Hitung nilai f sehingga d(j) minimum 4. Mengubah bobot neuron ke-j sebagai berikut: Jika T=Cj, maka w(jt 1) w(jt ) x w(jt ) yaitu mendekatkan vektor bobot w ke vektor masukan x Jika T≠Cj, maka w(jt 1) w(jt ) x w(jt ) yaitu mendekatkan vektor bobot w ke vektor masukan x 5. Mengurangi nilai laju pembelajaran α Jika T=Cj, maka
dan sebaliknya, Jika T≠Cj, maka:
dengan α ≤ 1 6. Mengecek kondisi untuk berhenti. Jumlah iterasi atau kondisi vektor bobot yang stabil atau nilai α sangat kecil
ISBN : 978-602-97491-6-8 C-15-4
Prosiding Seminar Nasional Manajemen Teknologi XVII Program Studi MMT-ITS, Surabaya 2 Februari 2013
METODE 1.
2.
3.
Tahapan ini meliputi hal-hal sebagai berikut: Pengumpulan data Data terdiri atas nilai rapor siswa kelas X semester 1 dan 2, yang kemudian diambil nilai reratanya. Selain itu, juga menggunakan data Tes Potensi akademik sejumlah 5 variabel. Pembersihan data Bertujuan membuang data yang memiliki variabel tidak lengkap atau tidak memiliki besar/nilai. Selain itu, juga membuang data yang mengalami penyimpangan pengukuran. Pemetaan variabel – input Pemetaan ini diperlukan untuk pembuatan kriterian dalam penentuan target kelas awal pada data.
= kondisi tinggi
= kondisi rendah
Gambar 2 Pemetaan Variabel dan Output
4. Penentuan target dan jenis data Dilakukan oleh 3 orang berdasarkan kriterian yang telah ditentukan, dan hasilnya diputuskan berdasarkan suara terbanyak. Data juga dikelompokkan menjadi dua yaitu data ideal dan data non ideal. Data ideal adalah data yang variabelnya memnuhi kriteria yang ditentukan. Sebaliknya, Data non-ideal adalah data yang kurang memenuhi kriteria yang ditentukan 5. Normalisasi dan scaling data Bertujuan untuk mengkonversi data menjadi nilai baru dengan rentang nilai antara -1 hingga 1. 6. Penentuan data training Training data terdiri atas 2 kelompok data yaitu Data Ideal dan Data semi-ideal. Data Ideal berjumlah 79 butir, dengan 10 butir data disetiap kelas, dan seluruhnya merupakan Data Ideal. Data semi-Ideal berjumlah 80 butir, yang setiap kelasnya terdiri atas 5 butir data Ideal dan 5 butir Data non-Ideal. 7. Pelatihan dan pengujian data Tahap ini dimulai dengan mencari besar jumlah neuron dan nilai learning rate yang tepat, yang akan digunakan untuk percobaan berikutnya. Kemudian berlanjut pada tahap pelatihan dan pengujian kelompok Data Ideal dan Data semi-Ideal. Bobot vektor dari hasil kedua jenis pelatihan digunakan untuk pengujian data siswa tahun sebelumnya. HASIL DAN PEMBAHASAN Pada kegiatan awal, melakukan 10 percobaan dengan variasi jumlah neuron, dan 10 percobaan berikutnya dengan variasi nilai learning rate, yang akhirnya memutuskan untuk ISBN : 978-602-97491-6-8 C-15-5
Prosiding Seminar Nasional Manajemen Teknologi XVII Program Studi MMT-ITS, Surabaya 2 Februari 2013
menggunakan jumlah neuron = 200 butir dan nilai learning rate sebesar 0,01 untuk percobaan berikutnya. Dengan ketentuan ini, nilai MSE minimum = 0,0316, akurasi = 87,3% dan waktu maksimum = 40 menit/ 1000 iterasi. Pada keadaan ini, terlihat grafik penurunan MSE yang bergerak cukup stabil. Pada pelatihan dan pengujian dengan menggunakan Data Ideal sebagai data training. Hasil pelatihan menunjukkan akurasi sebesar 87,3% saat nilai MSE = 0,0316, sedangkan hasil pengujian menunjukkan akurasi sebesar 78%, berselisih 9,7% dibawah akurasi pelatihan. Akurasi 78% berarti hanya mampu mendeteksi 117 butir data benar dari total data 149 butir. Jika hasil klasifikasi data training digabungkan dengan data testing maka diperoleh sebagai berikut: Tabel 1 Tingkat Akurasi Training Data Semi-Ideal Terbaik
Deteksi Data ideal Data non ideal
Benar 114 72
Salah 88,37% 72,00%
15 28
11,63% 28,00%
Dengan demikian, sangat terlihat sekali bahwa dengan menggunakan data ideal sebagai data training maka sistem sangat akurat dalam mengklasifikasikan data ideal secara keseluruhan dibandingkan data non-ideal. Pada pelatihan dan pengujian dengan menggunakan Data semi-Ideal sebagai data training. Hasil pelatihan menunjukkan akurasi sebesar 81,3% saat nilai MSE = 0,0469, sedangkan hasil pengujian menunjukkan akurasi sebesar 79,2%, hanya berselisih 2,1% dibawah akurasi pelatihan. Akurasi 79,2% berarti hanya mampu mendeteksi 118 butir data benar dari total data 150 butir. Jika hasil klasifikasi data training digabungkan dengan data testing, maka diperoleh sebagai berikut: Tabel 2 Tingkat Akurasi Training Data Semi-Ideal Terbaik
Deteksi Data ideal Data non ideal
Benar 99 84
Salah 76,74% 84,00%
30 16
23,25% 16,00%
Dengan demikian, sangat terlihat sekali bahwa dengan menggunakan data semi-ideal sebagai data training maka sistem sangat akurat dalam mengklasifikasikan data non-ideal secara keseluruhan dibandingkan data ideal, tetapi juga akurat dalam mengklasifikasikan data ideal. Pada pengujian data siswa tahun sebelumnya dengan menggunakan bobot terbaik hasil dari kedua jenis pelatihan, maka didapatkan hasil sebagai berikut: Tabel 3 Tingkat Akurasi untuk Data Ta 2009/2010 Bobot yang digunakan Deteksi Benar Deteksi Salah Data Training Ideal 195 74,70% 66 25,29% Data Traning semi-ideal 204 78,20% 57 21,84% Total data = 261 butir Dari hasil tersebut, terlihat penurunan akurasi cukup besar jika menggunakan bobot dari hasil training Data Ideal, tetapi sebaliknya terlihat bahwa bobot dari hasil training Data semi-Ideal lebih akurat dalam mengklasifikasikan siswa ke dalam kelas-kelas OSN. Hal ini karena bobot dari hasil training data ideal memiliki area yang kurang tepat untuk melingkupi area Data nonIdeal. ISBN : 978-602-97491-6-8 C-15-6
Prosiding Seminar Nasional Manajemen Teknologi XVII Program Studi MMT-ITS, Surabaya 2 Februari 2013
KESIMPULAN DAN SARAN Kesimpulan dari penelitian ini adalah sebagai berikut: 1. Pelatihan data menggunakan Data Ideal, memberikan akurasi pelatihan yang jauh lebih tinggi daripada Data semi-Ideal, karena semua data yang digunakan untuk pelatihan memiliki konsitensi terhadap kriteria yang telah ditentukan. Kelemahan yang timbul yaitu bobot hasil pelatihan ini kurang mampu mengenali data non-ideal. 2. Pelatihan data menggunakan Data semi-ideal, berdasarkan total data keseluruhan, memberikan akurasi yang lebih baik dalam mengenali konsep/kriteria yang telah ditentukan, karena penurunan nilai akurasi hasil pelatihan data terhadap pengujian data adalah kecil dan memiliki proporsi pengenalan benar data ideal terhadap data non-ideal hampir sama. Dengan demikian Data-semi ideal merupakan komposisi terbaik untuk digunakan sebagai data training. 3. Dengan akurasi benar sebesar 78,20% berdasarkan pegujian data menggunakan data siswa tahun sebelumnya, maka metode ini cukup membantu dalam mengklasifikasikan siswa dalam bidang-bidang OSN. Berdasarkan langkah-langkah penelitian yang telah dilakukan, maka beberapa hal yang perlu lebih diperhatikan dan diperbaiki dimasa yang akan datang, yaitu sebagai berikut: a. Pada penelitian selanjutnya, diharapkan untuk sangat berhati-hati dalam penentuan target, mengingat data yang digunakan merupakan data riil, sehingga jarang ditemui data yang sesuai dengan kriteria ideal yang telah ditentukan, sehingga diawal penelitian perlu dibuat kriteria tambahan yang bersifat baku untuk menentukan target kelas/kelompok. b. Perlu dilakukan pengisian kuisioner terkait minat siswa memilih mata pelajaran dan bidang lomba olimpiade sebagai penegas keputusan atas asumsi/anggapan bahwa nilai tertinggi dari semua pelajaran menunjukkan kecondongan/minat siswa terhadap pelajaran tersebut. DAFTAR PUSTAKA Arikunto, Suharsimi, Prof.Dr. (2009). Dasar-dasar Evaluasi Pendidikan (edisi revisi). Jakarta: Bumi Aksara. Depdiknas. (2006). Panduan Pelaksanaan Kurikulum Tingkat Satuan Pendidikan. Jakarta. Fausett, L. (1994). Fundamentals of neural networks: Architectures, algorithms, and applications. Prentice-HallInternational., Inc. Jain AK, Dubes RC. (1988). Algorithms for Clustering Data. New Jersey: Prentice Hall Inc. Salazar GEJ, Veles AC, Parra MCM, Ortega LO. (2002). A Cluster Validity Index for Comparing Non-hierarchical Clustering Methods. Santosa, Budi. (2007). Data mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu.
ISBN : 978-602-97491-6-8 C-15-7