SISTEM SISTEM REKOMENDASI BIDANG MINAT MAHASISWA MENGGUNAKAN METODE ASSOCIATION RULE DAN ALGORITMA APRIORI Nama Mahasiswa NRP Jurusan Dosen Pembimbing I
: : : :
NUCIFERA DIAHPANGASTUTI 5105 100 070 Teknik Informatika FTIF-ITS Prof. Dr. Ir. Joko Lianto Buliali, M.Sc.
Abstrak Association rule mining adalah sebuah teknik data mining untuk menemukan asosiasi yang sesuai atau hubungan antar data dari sejumlah besar data. Salah satu tool yang dapat membantu untuk menemukan association rule mining adalah WEKA. Sejumlah besar data yang diproses di WEKA, dapat ditemukan rulerulenya menggunakan algoritma apriori dengan dua proses utama yaitu pencarian frequent itemsets berdasarkan minimum support ( join step dan prune step ) dan pembentukan rule berdasarkan minimum confidence. Dalam Tugas Akhir ini, rule-rule yang ditemukan oleh WEKA dari analisis terhadap data akademik alumni dapat digunakan lebih lanjut dalam sistem rekomendasi bidang minat pilihan mahasiswa. Berdasarkan data akademik yang dimasukkan, berupa IPK mata kuliah wajib dari masing-masing bidang minat, maka seorang mahasiswa dapat direkomendasikan pada bidang minat yang sesuai melalui sistem ini. Rekomendasi dilakukan dengan cara mencocokan rule-rule yang ditemukan dari data alumni dengan inputan yang dimasukkan oleh mahasiswa tersebut. Hasil analisis menunjukkan bahwa sistem rekomendasi bidang minat ini memiliki ketepatan sebesar 70% untuk rekomendasi bidang minat pilihan pertama, sebesar 11,67 % ketepatan pada rekomendasi pilihan kedua dan sebesar 18,33% tidak dapat merekomendasikan apapun, baik itu pilihan pertama maupun kedua . Kelemahan dari sistem adalah jika pola data mahasiswa tidak sesuai dengan rule-rule yang ada, maka mahasiswa tidak dapat direkomendasikan pada bidang minat manapun. Kata Kunci : association rule mining, minsupport, min confidence
Abstract Association rule mining is a data mining technique to find interesting association or relationships among a large set of data items. One of tool which is can be used to find association rule mining is WEKA. A large set of data which is processed in WEKA, can be found its rules using apriori algorithm with two main processes, finding its frequent itemsets based on minimum support ( join step and prune step ) and build rules based on minimum confidence. In this Final Project, rules which is found by WEKA from previous academic analysis of alumni data, can be used in student’s field of interest recommendation system. Based on academic data which is inputed, GPA of compulsory subjects for each field of interest, then a student can be recommended to suitable field of interest through this system. Recommendation made by matching rules which is found from alumni data with data which is inputed by that student. From system’s analysis can be found that student’s field of interest recommendation system has a fairly good accuracy, 70 % on first recommendation, 11,67 % on second recommendation and 18,33 % can’t give any recommendation neither first recommendation nor second recommendation. Weakness of system is when data which is inputed by student can’t be matched with any rules, then that student can’t be recommended into any field of interest. Keyword : association rule mining, minsupport, min confidence
Page 1 of 9
1. Latar Belakang Pada saat ini, mahasiswa di Jurusan Teknik Informatika ITS masih belum memiliki sistem untuk membantu mereka menentukan bidang minat. Pemilihan bidang minat ini sangat penting karena sangat berkaitan dengan pengambilan tugas akhir dari mahasiswa tersebut. Oleh karena itu diperlukan sebuah sistem yang dapat membantu seorang mahasiswa untuk menentukan bidang minat pilihan mereka. Sistem ini akan dibangun berdasarkan hasil analisa terhadap sejumlah data-data sebelumnya. Salah satu metode dalam data mining yang dapat digunakan untuk proses pengambilan keputusan adalah association rule. Sebagai contoh, aturan { IPK KBK KCV 3.5 – 4.0, IPK KBK RPL 2.5 – 3.0 } → mengambil Bidang Minat KCV, ditemukan di dalam data akademik mahasiswa, maka akan memberikan informasi bahwa jika seorang mahasiswa memiliki IPK KBK KCV 3.5 – 4.0 dan IPK KBK RPL 2.5 – 3.0, maka ada kecenderungan mahasiswa tersebut akan mengambil Bidang Minat KCV. Sistem rekomendasi bidang minat pilihan mahasiswa ini adalah sebuah sistem yang akan membantu seorang mahasiswa untuk memilih bidang minat. Proses rekomendasi tersebut didapatkan dari hasil uji coba dan evaluasi association rule data alumni. 2.
Tujuan Tujuan dari Tugas Akhir ini adalah membuat sistem rekomendasi bidang minat mahasiswa dimana sistem akan menemukan rule-rule yang akan digunakan untuk membantu mahasiswa baru menentukan bidang minat pilihan mereka masing-masing.
3.
Dasar Teori Aturan Asosiasi ( Association Rule )
Aturan asosiasi mengikuti definisi original dari Agrawal et al, permasalahan pada Association Rule Mining dedefiniskan sebagai berikut : Misalkan I = { i 1 , i 2 , .., i n } adalah kumpulan dari atribut-atribut n yang disebut dengan items dan D = { t 1 , t 2 , .., t m } adalah kumpulan dari transaksi-transaksi yang disebut dengan database. Setiap transaksi pada D memiliki ID transaksi yang unique dan terdiri dari subset item-item di dalam I. Sebuah rule didefinisikan dalam bentuk X → Y dimana X, Y adalah anggota dari I dan X ∩ Y = Ø. Himpunan item-item X dan Y disebut dengan antecedent ( sisi sebelah kiri tanda panah ) dan consequent adalah rule secara berurutan. Untuk mengilustrasikan konsep ini saya akan menggunakan data akademik mahasiswa sebagai domain. Himpunan item-item adalah I = { IPK KBK KCV 3.5 – 4.0, IPK KBK RPL 2.5 – 3.0, Bidang Minat KCV }. Contoh rule adalah { IPK KBK KCV 3.5 – 4.0, IPK KBK 2.5 – 3.0 } → { Bidang Minat KCV } berarti bahwa jika seorang mahasiswa memiliki IPK KBK KCV 3.5 – 4.0 dan IPK KBK RPL 2.5 – 3.0, maka ada kecenderungan untuk mengambil Bidang Minat KCV. Analisis Kerancang Belanja ( Market Basket Analysis ) Analisis keranjang belanja merupakan sebuah analisis terhadap data mahasiswa pada SIM Akademik. Analisis dilakukan dengan menemukan hubungan antara IPK Mahasiswa per KBK dengan bidang minat yang diambil oleh seorang mahasiswa. Analisis dari data keranjang belanja tersebut dapat digunakan untuk mendapatkan aturan asosiasi dari kombinasi IPK mahasiswa per KBK dengan bidang minat yang diambil oleh mahasiswa. Contoh Keranjang Belanja NRP Items 5105 100 001 3.50, 3.00, 2.50, RPL 5105 100 002 3.00, 3.50, 2.50, KBJ 5105 100 003 2.50, 3.00, 3.50, KCV Tabel di atas adalah contoh keranjang belanja yang akan dianalisis. Mahasiswa dengan NRP 5105 100 001 memiliki IPK KBK RPL 3.50, memiliki IPK KBK KBJ 3.00, memiliki IPK KBK KCV 2.50, mengambil bidang minat RPL. Mahasiswa dengan NRP 5105 100 002, memiliki IPK KBK RPL 3.00, memiliki IPK KBK KBJ 3.50, memiliki IPK KCV 2.50, mengambil bidang minat KBJ. Mahasiswa dengan NRP 5105 100 003, memiliki IPK KBK RPL 2.50, memiliki IPK KBK KBJ 3.00, memiliki IPK KBK KCV 3.50, mengambil bidang minat KCV.
Page 2 of 9
Untuk memudahkan analisis, maka IPK masing-masing KBK dibuat menjadi tiga interval : • IPK KBK RPL : ( minimum – 2.83 ), ( 2.83 – 3.17 ), ( 3.17 – maksimal ) • IPK KBK KBJ : ( minimum – 3.17 ), ( 3.17 – 3.33 ), ( 3.33 – maksimal ) • IPK KBK KCV : ( minimum – 2.83 ), ( 2.83 – 3.17 ), ( 3.17 – maksimal )
Proses Pencarian Frequent Itemsets Langkah awal adalah tentukan dulu, minimum support count yang diperlukan adalah 1 dan minimum confidence yang dibutuhkan adalah 0,9. • Step 1 : Generating 1 – Itemset Frequent Pattern Step – 1 Itemsets { IPK KBK RPL = ( minimal – 2.83 ) } { IPK KBK RPL = ( 2.83 – 3.17 ) } { IPK KBK RPL = ( 3.17 – maksimal ) } { IPK KBK KBJ = ( minimal – 3.17 ) } { IPK KBK KBJ = ( 3.17 – 3.33 ) } { IPK KBK KBJ = ( 3.33 – maksimal ) } { IPK KBK KCV = ( minimal – 2.83 ) } { IPK KBK KCV = ( 2.83 – 3.17 ) } { IPK KBK KCV = ( 3.17 – maksimal ) } { RPL } { KBJ } { KCV }
Support Count Support count adalah banyaknya itemsets yang sama muncul secara bersamaan pada suatu data transaksi pada keranjang belanja. Confidence Confidence adalah suatu ukuran yang menunjukkan hubungan kondisi antar dua barang ( misal seberapa sering bidang minat pilihan B diambil jika mahasiswa memiliki IPK A ) dari keseluruhan transaksi. Berikut ini adalah salah satu contoh perhitungan confidence dari salah satu transaksi yang diambil dari tabel Transaksi Belanja Akademik : Confidence, ć ( x → y )
=σ(xUy)/σ(x) = σ ( IPK KBK RPL ( 3.17 – maksimal, IPK KBK KBJ ( minimal – 3.17 ), IPK KBK KCV ( minimal – 2.83 ), RPL ) / 4 =1/4 = 0.25 Contoh Proses Algoritma Apriori Algoritma Apriori memiliki dua tahap penting yaitu proses Join Step dan Prune Step. Proses Join Step adalah proses untuk mencari Frequent Itemsets dan yang tidak sesuai dengan ketentuan maka akan dihilangkan melalui proses Prune Step.
Support Count 1 1 1 2 0 1 2 0 1 1 1 1
Tabel di atas menunjukkan proses joint step dan kolom berwarna merah, menunjukkan prune step artinya support count yang tidak memenuhi minimum support count harus dibuang. •
Step 2 : Generating 2 – Itemset Frequent Pattern Step - 2 Itemsets Support Count { IPK KBK RPL = ( minimal 1 – 2.83 ) ; IPK KBK KBJ = ( minimal – 3.17 ) } { IPK KBK RPL = ( minimal 1 – 2.83 ) ; IPK KBK KCV = ( 3.17 – maksimal ) } { IPK KBK RPL = ( minimal 1 – 2.83 ) ; KCV } { IPK KBK RPL = ( 2.83 – 1 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) } { IPK KBK RPL = ( 2.83 – 1 3.17 ) ; IPK KBK KCV = ( minimal – 2.83 ) } { IPK KBK RPL = ( 2.83 – 1
Page 3 of 9
3.17 ) ; KBJ } { IPK KBK RPL = ( 3.17 – maksimal ) ; IPK KBK KBJ = ( minimal – 3.17 ) } { IPK KBK RPL = ( 3.17 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) } { IPK KBK RPL = ( 3.17 – maksimal ) ; RPL } { IPK KBK KBJ = ( minimal – 3.17 ) ; IPK KBK KCV = ( minimal – 2.83 ) } { IPK KBK KBJ = ( minimal – 3.17 ) ; IPK KBK KCV ( 3.17 – maksimal ) } { IPK KBK KBJ = ( minimal – 3.17 ) ; RPL } { IPK KBK KBJ = ( minimal – 3.17 ) ; KCV } { IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) } { IPK KBK KBJ = ( 3.33 = maksimal ) ; KBJ } { IPK KBK KCV = ( minimal = 2.83 ) ; RPL } { IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } { IPK KBK KCV ( 3.17 – maksimal ) ; KCV } •
1
1
1 1
1
1 1 1
1 1 1 1
Step 3 : Generating 3 – Itemset Frequent Pattern Step – 3 Itemsets
{ IPK KBK RPL = ( minimal – 2.83 ) ; IPK KBK KBJ = ( minimal – 3.17 ) ; IPK KBK KCV = ( 3.17 – maksimal ) } { IPK KBK RPL = ( minimal – 2.83 ) ; IPK KBK KBJ = ( minimal – 3.17 ) ; KCV } { IPK KBK RPL = ( minimal – 2.83 ) ; IPK KBK KBJ = ( minimal – 3.17 ) ; KCV } { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) } { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ), KBJ } { IPK KBK RPL = ( 2.83 –
Support Count 1
1
1
1
1
3.17 ) ; IPK KBK KCV = ( minimal – 3.17 ) ; KBJ } { IPK KBK RPL = ( 3.17 – maksimal ) ; IPK KBK KBJ = ( minimal – 3.17 ) ; IPK KBK KCV = ( minimal – 2.83 ) } { IPK KBK RPL = ( 3.17 – maksimal ) ; IPK KBK KBJ = ( minimal – 3.17 ) ; RPL } { IPK KBK RPL = ( 3.17 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; RPL } { IPK KBK KBJ = ( minimal – 3.17 ) ; IPK KBK KCV ( minimal – 2.83 ) ; RPL } { IPK KBK KBJ = ( minimal – 3.17 ) ; IPK KBK KCV = ( 3.17 – maksimal ) ; KCV } { IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } •
1
1
1
1
1
1
Step 4 : Generating 4 – Itemset Frequent Pattern Step – 4 Itemsets Support Count { IPK KBK RPL = ( 1 minimal – 2.83 ) ; IPK KBK KBJ = ( minimal – 3.17 ) ; IPK KBK KCV = ( 3.17 – maksimal ) ; KCV } { IPK KBK RPL = ( 2.83 – 1 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ), KBJ } { IPK KBK RPL = ( 3.17 – 1 maksimal ) ; IPK KBK KBJ = ( minimal – 3.17 ) ; IPK KBK KCV = ( minimal – 2.83 ), RPL }
Proses Pencarian Association Rules Proses pencarian Association Rules ini memanfaatkan minimum confidence yang telah ditentukan sebelumnya yaitu 0.9. Contoh : • L = { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ }. • Nonempty subsets L = • { IPK KBK RPL = ( 2.83 – 3.17 ) }, { IPK KBK KBJ = ( 3.33 – maksimal ) }, {
1
Page 4 of 9
IPK KBK KCV = ( minimal – 2.83 ) }, { KBJ } • { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) }, { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KCV = ( minimal – 2.83 ) }, { IPK KBK RPL = ( 2.83 – 3.17 ) ; KBJ }, { IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) }, { IPK KBK KBJ = ( 3.33 – maksimal ) ; KBJ }, { IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } • { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) }, { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ ( 3.33 – maksimal ) ; KBJ }, { IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ }, { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } R1 : IPK KBK RPL = ( 2.83 – 3.17 ) → IPK KBK KBJ = ( 3.33 – maksimal ) dan IPK KBK KCV = ( minimal – 2.83 ) dan KBJ Confidence = Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ ( 3.33 – maksimal ) ; IPK KBK KCV ( minimal – 2.83 ) ; KBJ } / Support Count { IPK KBK RPL ( 2.83 – 3.17 ) } = 1/1 = 1 Terpilih > 0.9 R2 : IPK KBK KBJ = ( 3.33 – maksimal ) → IPK KBK RPL = ( 2.83 – 3.17 ) dan IPK KBK KCV = ( minimal – 2.83 ) dan KBJ Confidence = Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } / Support Count { IPK KBK KBJ = ( 3.33 – maksimal ) } = 1/1 – Terpilih > 0.9 R3 : IPK KBK KCV = ( minimal – 2.83 ) → IPK KBK RPL = ( 2.83 – 3.17 ) dan IPK KBK KBJ ( 3.33 – maksimal ) dan KBJ Confidence = Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } / Support Count { IPK KBK KCV = ( minimal – 2.83 ) } = 1 / 2 Tidak Terpilih < 0.9 R4 : KBJ → IPK KBK RPL = ( 2.83 – 3.17 ) dan IPK KBK KBJ = ( 3.33 – maksimal ) dan IPK KBK KCV = ( minimal – 2.83 ) Confidence = Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } / Support Count { KBJ } = 1/1 Terpilih > 0.9
R5 : IPK KBK RPL = ( 2.83 – 3.17 ) dan IPK KBK KBJ = ( 3.33 – maksimal ) → IPK KBK KCV = ( minimal – 2.83 ) dan KBJ Confidence = Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } / Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) dan IPK KBK KBJ = ( 3.33 – maksimal ) } = 1/1 Terpilih > 0.9 R6 : IPK KBK RPL = ( 2.83 – 3.17 ) dan IPK KBK KCV = ( minimal – 2.83 ) → IPK KBK KBJ = ( 3.33 – maksimal ) dan KBJ Confidence = Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } / Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) dan IPK KBK KCV = ( minimal – 2.83 ) } = 1/1 Terpilih > 0.9 R7 : IPK KBK RPL = ( 2.83 – 3.17 ) dan KBJ → IPK KBK KBJ = ( 3.33 – maksimal ) dan IPK KBK KCV = ( minimal – 2.83 ) Confidence = Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } / Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) dan KBJ } = 1/1 Terpilih > 0.9 R8 : IPK KBK KBJ = ( 3.33 – maksimal ) dan IPK KBK KCV = ( minimal – 2.83 ) → IPK KBK RPL ( 2.83 – 3.17 ) dan KBJ Confidence = Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } / Support Count { IPK KBK KBJ = ( 3.33 – maksimal ) dan IPK KBK KCV = ( minimal – 2.83 ) } = 1/1 Terpilih > 0.9 R9 : IPK KBK KBJ = ( 3.33 – maksimal ) dan KBJ → IPK KBK RPL = ( 2.83 – 3.17 ) dan IPK KBK KCV = ( minimal – 2.83 ) Confidence = Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } / Support Count { IPK KBK KBJ = ( 3.33 – maksimal ) dan KBJ } = 1/1 Terpilih > 0.9 R10 : IPK KBK KCV = ( minimal – 2.83 ) dan KBJ → IPK KBK RPL = ( 2.83 – 3.17 ) dan IPK KBK KBJ ( 3.33 – maksimal ) Confidence = Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } / Support Count { IPK KBK KCV = ( minimal – 2.83 ) dan KBJ = 1/1 Terpilih > 0.9
Page 5 of 9
R11 : IPK KBK RPL = ( 2.83 – 3.17 ) dan IPK KBK KBJ = ( 3.33 – maksimal ) dan IPK KBK KCV = ( minimal – 2.83 ) → KBJ Confidence = Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } / Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) dan IPK KBK KBJ = ( 3.33 – maksimal ) dan IPK KBK KCV = ( minimal – 2.83 ) = 1/1 Terpilih > 0.9 R12 : IPK KBK RPL = ( 2.83 – 3.17 ) dan IPK KBK KBJ = ( 3.33 – maksimal ) dan KBJ → IPK KBK KCV = ( minimal – 2.83 ) Confidence = Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } / Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) dan IPK KBK KBJ = ( 3.33 – maksimal ) dan KBJ } = 1/1 Terpilih > 0.9 R13 : IPK KBK KBJ = ( 3.33 – maksimal ) dan IPK KBK KCV = ( minimal – 2.83 ) dan KBJ → IPK KBK RPL = ( 2.83 – 3.17 ) Confidence = Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } / Support Count { IPK KBK KBJ = ( 3.33 – maksimal ) dan IPK KBK KCV = ( minimal – 2.83 ) dan KBJ } = 1/1 Terpilih > 0.9 R14 : IPK KBK RPL = ( 2.83 – 3.17 ) dan IPK KBK KCV = ( minimal – 2.83 ) dan KBJ → IPK KBK KBJ = ( minimal – 3.17 ) Confidence = Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) ; IPK KBK KBJ = ( 3.33 – maksimal ) ; IPK KBK KCV = ( minimal – 2.83 ) ; KBJ } / Support Count { IPK KBK RPL = ( 2.83 – 3.17 ) dan IPK KBK KCV = ( minimal – 2.83 ) dan KBJ } = 1/1 Terpilih > 0.9 Contoh rule yang ditolak adalah rule nomor 3, ditandai dengan cetakan tebal. Rule tersebut ditolak karena tidak memenuhi minimum confidence. 4.
Perancangan Sistem
1. Bagian Pertama – Penemuan Rule Pada tahap ini, diagram yang dilingkari, data-data alumni akan dimasukkan ke dalam tool WEKA untuk dianalisis menggunakan algoritma Apriori hingga menemukan association rule terbaik. Parameter yang digunakan sebagai tolak ukur dalam proses analisis ini adalah IPK Mahasiswa per bidang minat ( IPK KBK RPL, IPK KBK KBJ dan IPK KBK KCV ). Pada sistem, algoritma apriori akan digunakan saat menganalisis data. Saat memasukkan data mahasiswa yang telah melalui tahap pre-processing, maka saat itu pula algoritma apriori mulai mengerjakan dua tahapan besarnya yaitu proses pembentukan Frequent Itemsets dan proses pembentukan Association Rule. Pertama-tama menentukan dulu, minimum support dan confidence pada sistem. Setelah menentukan minimum support, maka sistem akan mulai mencari dan membentuk Frequent Itemsets menggunakan proses join step dan prune step seperti telah dicontohkan pada dasar teori. Kemudian dari kumpulan Frequent Itemsets tersebut, selanjutnya masingmasing Frequent Itemsets tersebut akan dicari nonempty subsets-nya untuk kemudian dilakukan proses penghitungan confidence. Setelah proses penghitungan confidence tersebut selesai, maka barulah akan diseleksi bahwa rule-rule yang tidak memenuhi confidence akan ditolak. Sistem nantinya akan mengambil library dari WEKA ini ke NetBeans untuk melakukan proses penemuan rule-rule tersebut. 2. Bagian Kedua – Penggunaan Rule Pada tahap ini akan menginputkan data-data akademik mahasiwa baru yang sebelumnya disimpan dulu di dalam database. Kemudian dilakukan pencocokan rule pada bagian pertama untuk kemudian diambil kesimpulan berupa sistem rekomendasi bidang minat mahasiswa berdasarkan rulerule terpilih. 5.
Perancangan Data
Page 6 of 9
Data input berformat CSV di atas akan diubah menjadi format Arff dengan bantual tool WEKA untuk digunakan lebih lanjut. Berikut ini proses pre-processing yang dilakukan pada tool WEKA : • Pertama yang harus dilakukan adalah membuka WEKA dan klik button Explorer • Kemudian pilih file format CSV yang akan dimasukkan ke dalam tahap PreProcessing • Hal pertama yang dilakukan adalah menghilangkan identifier yaitu berupa NRP Mahasiswa, karena WEKA tidak mengizinkan adanya identifier apapun dalam proses analisis. • Tahap berikutnya adalah mengubah interval IPK masing-masing KBK menjadi 3 kelompok besar • Tahap terakhir adalah simpan ke dalam format Arff dan data-data tersebut pun siap untuk digunakan pada tahap implementasi. 6.
akademik mahasiwa baru yang sebelumnya disimpan dulu di dalam database. Kemudian yang terakhir adalah menu Rekomendasi Bidang Minat Mahasiswa yang merupakan tahap ini akan pencocokan Bagian Pertama dan Bagian Kedua untuk kemudian diambil kesimpulan berupa sistem rekomendasi bidang minat mahasiswa berdasarkan rule-rule terpilih. 7.
Lingkungan uji coba merupakan komputer tempat uji coba. Berikut adalah lingkungan uji coba yang digunakan pada tugas akhir ini. •
Perangkat keras Perangkat lunak ini diimplementasikan pada sebuah notebook dengan spesifikasi prosesor Intel Core 2 Duo 2.0 GHz dan memori 1 GB.
•
Perangkat lunak Perangkat lunak ini dikembangkan pada sistem operasi Microsoft Windows Vista dengan menggunakan WEKA 3.6, NetBeans IDE 6.8 dan Microsoft Access 2007.
8.
Uji Coba dan Evaluasi
Perancangan Antar Muka
Menu File berisikan tiga menu yaitu menu Analysis Data, Data Mahasiswa, Rekomendasi Bidang Minat Mahasiswa. Menu Analysis Data adalah implementasi dari gambar 3.1 bagian pertama. Data akan dianalisis menggunakan algoritma Apriori hingga menemukan association rule terbaik. Parameter yang digunakan sebagai tolak ukur dalam proses analisis ini adalah IPK Mahasiswa per bidang minat ( IPK KBK RPL, IPK KBK KBJ dan IPK KBK KCV ). Menu Data Mahasiswa ini adalah implementasi dari gambar 3.1 bagian kedua. Menu Data Mahasiswai ini terdiri dari 4 bagian lagi yaitu Form Data Mahasiswa, Form Hitung RPL, Form Hitung KBJ dan Form Hitung KCV. Pada tahap ini, pengguna akan menginputkan data-data
Spesifikasi Hardware dan Software yang Digunakan
Data yang digunakan adalah data mahasiswa angkatan 2004, angkatan 2005, angkatan 2006 dan angkatan 2007, diperoleh dari SIM Akademik sebanyak 120 mahasiswa, dengan komposisi 40 mengambil bidang minat RPL, 40 mengambil bidang minat KCV, dan 40 mengambil bidang minat KBJ. Mata kuliah dasar umum dan mata kuliah pilihan dihilangkan sehingga hanya tersisa mata kuliah wajib saja. Kemudian hitung IPK masing-masing KBK dari 120 mahasiswa tersebut. Uji Coba Penemuan Rule Uji coba ini dilakukan untuk menemukan rule-rule yang nantinya dapat digunakan untuk sistem rekomendasi bidang minat mahasiswa. Uji coba dilakukan dengan rentang confidence 0.9 hingga confidence 0.1 ( dengan penurunan 0.1, jadi ada 9 uji coba ). Kemudian dari hasil pengamatan akan ditemukan bahwa semakin kecil confidence, maka akan memunculkan rule semakin banyak dan pilihan rule untuk sistem rekomendasi bidang minat dapat lebih beragam. Hal ini terjadi karena confidence adalah syarat
Page 7 of 9
dipilih atau ditolaknya sebuah rule, jika nilai confidence tersebut diturunkan, maka akan memberikan kesempatan lebih banyak rule untuk ditemukan. •
•
•
•
•
•
•
•
•
Uji coba MinSupport : 0.1 dan Confidence : 0.9 dengan parameter IPK, memunculkan 6 rules Uji coba MinSupport : 0.1 dan Confidence : 0.8 dengan parameter IPK, memunculkan 16 rules Uji coba MinSupport : 0.1 dan Confidence : 0.7 dengan parameter IPK, memunculkan 26 rules Uji coba MinSupport : 0.1 dan Confidence : 0.6 dengan parameter IPK, memunculkan 44 rules Uji coba MinSupport : 0.1 dan Confidence : 0.5 dengan parameter IPK, memunculkan 67 rules Uji coba MinSupport : 0.1 dan Confidence : 0.4 dengan parameter IPK, memunculkan 98 rules Uji coba MinSupport : 0.1 dan Confidence : 0.3 dengan parameter IPK, memunculkan 136 rules Uji coba MinSupport : 0.1 dan Confidence : 0.2 dengan parameter IPK, memunculkan 162 rules Uji coba MinSupport : 0.1 dan Confidence : 0.1 dengan parameter IPK, memunculkan 166 rules
Uji Coba Penggunaan Rule ( sistem ) Setelah menginputkan data mahasiswa baru ke dalam database dan mencocokkan dengan rule-rule yang memenuhi syarat, maka beberapa contoh hasilnya ada pada Gambar 5.10, Gambar 5.11, Gambar 5.12 dan Gambar 5.13.
Pemilihan Rule Berikutnya akan dipilih rule dari 166 rule yang ada di atas tersebut dengan ketentuan bahwa rule tersebut dapat merekomendasikan sebuah bidang minat ( sisi kanan anak panah adalah RPL, KBJ atau KCV ). Setelah memilih dari 166 rules tersebut, ada beberapa rule yang memenuhi untuk dijadikan bahan rekomendasi bidang minat mahasiswa. Rule-rule tersebut adalah rule-rule yang akan digunakan sebagai dasar rekomendasi sistem dan telah diurutkan dari confidence tertinggi hingga terendah. Jika ada rule yang sama, maka yang akan digunakan adalah rule dengan confidence lebih tinggi
Page 8 of 9
digunakan sebagai bahan pertimbangan sistem rekomendasi mahasiswa. 10. DAFTAR PUSTAKA
[1] Cristobal Romero, Sebastian Ventura, Enrique Garcia, “ Data Mining in Course Management Systems : Moodle Study and Tutorial “, 2007 [2] Irina Tudor,” Association Rule Mining as a Data Mining Technique “, 2009 [3] Kusrini, Emha Taufiq, “ Algoritma Data Mining “, Yogyakarta : ANDI, 2009 [4] Remco R. Bouckaert, Eibe Frank, Mark Hall, Richard Kirkby, Peter Reuternann, Alex Seewald, David Scuse, “ The University of WAIKATO – WEKA Manual for Version 3-6-2 “, 2010 [5] Hendry, “ Belajar Otodidak Java dengan NetBeans 6.0 “, Jakarta : Elex Media Komputindo, 2008
9.
Penutup Kesimpulan Dari hasil pengamatan selama proses uji coba dan evaluasi, maka dapat diambil kesimpulan sebagai berikut: 1. Pada proses pembentukan rule, semakin kecil nilai confidence, maka jumlah rule yang dihasilkan akan semakin banyak. 2. Berdasarkan hasil uji coba, diperoleh kesimpulan bahwa sistem akan tepat pada rekomendasi pilihan pertama sebanyak 70%, sistem akan tepat pada rekomendasi pilihan kedua sebanyak 11,67 % dan sistem tidak memiliki kesesuaian dengan rekomendasi pertama dan rekomendasi kedua sebanyak 18,33 %. Saran
Saran-saran untuk pengembangan selanjutnya yaitu, penambahan data input dan parameter dapat dilakukan pada pemodelan ini, untuk menemukan keragaman rule yang nantinya
Page 9 of 9