Transformasi data, mengubah data ke bentuk yang dapat di-mine sesuai dengan perangkat lunak yang digunakan pada penelitian. Penentuan Data Latih dan Data Uji Dalam penelitian ini data terdapat dua metode uji yang digunakan yaitu pembagian data latih dan data uji dengan proporsi 70% data latih dan 30% data uji dan metode uji 10-fold cross validation.
klasifikasi yang dihasilkan metode k-Nearest Neighbor. Lingkungan Pengembangan Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk penelitian ini adalah sebagai berikut: a Perangkat keras berupa komputer personal dengan spesifikasi: Prosesor Intel(R) Pentium(R) D CPU 2.80 GHz (2 CPUs) Memori DDR2 512 MB Harddisk 80 GB Keyboard dan mouse Monitor
Aplikasi Teknik Klasifikasi Tahapan ini merupakan tahap yang penting karena pada tahap ini teknik klasifikasi diaplikasikan terhadap data. Teknik klasifikasi yang digunakan adalah k-Nearest Neighbor. Langkah-langkah pada metode tersebut yaitu:
b Perangkat Lunak Sistem operasi Windows XP Professional Microsoft Excel 2007 sebagai media merapihkan data Microsoft Access 2007 sebagai media penggabungan data, pembersihan data, transformasi data QtOctave 0.7.2 untuk menjalankan metode k-Nearest neighbor
Hitung jarak Euclidean: Pada tahap ini setiap data uji akan dihitung jaraknya ke setiap data latih untuk mengetahui ukuran kedekatan atau ukuran kesamaan antara data uji dengan data latih. Penentuan nilai k: Hal terpenting pada kNearest Neighbor adalah menentukan nilai yang tepat untuk k yang menunjukan jumlah tetangga terdekat. Majority voting: Penentuan kelas target untuk data uji berdasarkan kelas yang utama pada tetangga terdekat.
HASIL DAN PEMBAHASAN
Jenis Percobaan dan Evaluasi Keluaran
Data
Dalam penelitian ini dilakukan beberapa bentuk percobaan yang dibedakan berdasarkan jenis dataset dan metode pembagian data latih dan data uji. Jenis-jenis percobaan tersebut adalah:
Data IPK dengan format spreadsheet Excel terdiri dari 2989 record dan 4 atribut (Nama, NRP, IPK, dan Status Studi). Sedangkan data Biodata dengan format spreadsheet Excel terdiri dari 3010 record dan 41 atribut (NRP, jalur masuk, jenis kelamin, tempat lahir, tanggal lahir, status kawin, warganegara, agama, nama ayah, tahun lahir ayah, pendidikan ayah, pekerjaan ayah, pendapatan orang tua, nama ibu, tahun lahir ibu, pendidikan ibu, pendidikan orang tua, pekerjaan ibu, alamat orang tua, kode pos, wilayah telp orang tua, nomor telp orang tua, nama wali, alamat wali, nama darurat, alamat darurat, nomor telp darurat, nomor SMA, nama SMA, nomor induk, status SMA, tahun ijazah, jumlah mata pelajaran UAN, nilai UAN, prestasi, minat/hobi, listrik, golongan darah, tinggi badan, berat badan, dan riwayat kesehatan).
Percobaan menggunakan dataset yang proporsi record pada setiap kelas target tidak sama dengan metode uji 70% data latih dan 30% data uji. Percobaan menggunakan dataset yang proporsi record pada setiap kelas target tidak sama dengan metode uji 10-fold cross validation. Percobaan menggunakan dataset yang proporsi record pada setiap kelas target sama dengan metode uji 70% data latih dan 30% data uji. Percobaan menggunakan dataset yang proporsi record pada setiap kelas target sama dengan metode uji 10-fold cross validation. Selanjutnya akan dibentuk tabel confusion matrix dari setiap classifier untuk mengevaluasi
Penggabungan dan Pembersihan Data Data IPK dan Biodata digabung menggunakan Microsoft Access berdasarkan kesamaan NRP pada kedua data. Pada data hasil gabungan data IPK dan Biodata ditambahkan
5
atribut baru yaitu atribut jurusan dengan ketentuan berdasarkan tabel kode jurusan mayor IPB tahun akademik 2007/2008 (Lampiran 1), penambahan atribut asal daerah berdasarkan asal SMA. Penentuan asal daerah sesuai dengan ketentuan pada Lampiran 2. Selain itu ditambahkan juga kolom kelas target yang ditentukan berdasarkan IPK dengan ketentuan: resiko rendah (IPK≥2.76), resiko sedang (2≤IPK<2.76), dan resiko tinggi (IPK<2). Selanjutnya dilakukan pemilihan atribut. Atribut yang tidak relevan dan atribut yang banyak mengandung missing value akan dihilangkan. Semua atribut terpilih yang bertipe nominal dan kelas target dikategorikan sesuai dengan ketentuan pada pada Lampiran 3. Record yang mengandung nilai kosong dan atau duplikat dihapus. Hasil akhir dari proses penggabungan data IPK dan Biodata terdiri dari 2785 record serta 9 atribut (jurusan, asal daerah, jalur masuk, jenis kelamin, pendapatan orang tua, pendidikan orang tua, nilai uan SMA, hobi, dan riwayat kesehatan) serta kolom kelas target.
dapat dilihat pada Tabel 2, sedangkan tabel kontingensi atribut lainnya dapat dilihat pada Lampiran 4. Tabel 2 Tabel kontingensi antara jenis kelamin dan kelas target Jenis kelamin
Resiko rendah
Kelas target Resiko Resiko sedang tinggi
978 517 1495
Perempuan Laki-laki Total
569 418 987
139 164 303
Dari 9 atribut yang ada akan dilakukan pemilihan atribut lagi menggunakan uji hipotesis statistika yaitu uji kebebasan chisquare dan uji korelasi peringkat Spearman. Uji kebebasan diterapkan untuk atribut yang bertipe nominal (jurusan, asal daerah, jalur masuk, jenis kelamin, pendapatan orang tua, pendidikan orang tua, hobi, dan riwayat kesehatan) sedangkan uji Spearman diterapkan untuk atribut yang bertipe numerik (nilai uan SMA). Uji kebebasan dan uji Spearman dilakukan untuk melihat hubungan antara setiap atribut dengan kelas target, apakah berpengaruh atau tidak. Jika berdasarkan uji yang dilakukan suatu atribut dinyatakan tidak berpengaruh, maka atribut tersebut dihilangkan, dan sebaliknya. Dalam hal ini, kelas target menunjukkan tingkat keberhasilan mahasiswa. Berikut merupakan salah satu contoh penerapan uji kebebasan pada atribut jenis kelamin. Penentuan hipotesis: H0 : jenis kelamin tidak berhubungan dengan kelas target H1 : jenis kelamin berhubungan dengan kelas target Sebelum dilakukan uji kebebasan, dibuat tabel kontingensi terlebih dahulu antara setiap atribut dengan kelas target. Tabel kontingensi antara atribut jenis kelamin dan kelas target
1686 1099 2785
Selanjutnya, dihitung nilai frekuensi harapan (Eij) dan nilai chi-square ( 2) dari setiap tabel kontingensi. Hasil perhitungan Eij dan 2hitung untuk atribut jenis kelamin diperlihatkan pada Tabel 3. Tabel 3 Nilai frekuensi harapan dan chi-square atribut jenis kelamin Ei1 905.052 589.947
Ei2 597.516 389.484
Ei3 183.432 119.568
i1
2 2
(db, α) =
2
2
5.879 9.020
hitung
Pemilihan Data
Total
(2, 0.05)
i2
2
1.360 2.087
i3
2
10.762 16.511 45.622
5.99
Jenis kelamin memiliki 2 level (perempuan dan laki-laki) dan kelas target memiliki 3 level (resiko rendah, resiko sedang, resiko tinggi) maka besarnya derajat bebas=(2-1) (3-1)=2. Nilai α yang digunakan yaitu sebesar 0.05. Berdasarkan Tabel 3, nilai 2hitung> 2(2, α). Oleh karena itu, dapat disimpulkan bahwa pada taraf nyata α = 0.05, peubah jenis kelamin berpengaruh terhadap atribut kelas target. Untuk nilai frekuensi harapan dan chi-square atribut lainnya dapat dilihat pada Lampiran 5. Berdasarkan uji hipotesis yang telah dilakukan terhadap seluruh atribut, diperoleh hasil yang diperlihatkan pada Tabel 4. Tabel 4 Hasil uji hipotesis Atribut Jurusan Asal daerah Jalur masuk Jenis kelamin Pendapatan Pendidikan orang tua Hobi Riwayat kesehatan Nilai uan sma
Keterangan terhadap kelas target Berpengaruh Berpengaruh Berpengaruh Berpengaruh Tidak Berpengaruh Tidak Berpengaruh Berpengaruh Tidak Berpengaruh Berpengaruh
6
Data akhir yang dihasilkan terdiri dari 2785 record dan 6 atribut yang berdasarkan uji hipotesis berpengaruh, yaitu: jurusan, asal daerah, jalur masuk, jenis kelamin, hobi, dan nilai uan SMA serta satu kolom kelas target. Dari 6 atribut yang digunakan pada penelitian ini 5 diantaranya merupakan data nominal yaitu: jurusan, asal daerah, jalur masuk, jenis kelamin, dan hobi. Sedangkan atribut nilai uan SMA merupakan data numerik. Pada atribut nilai uan SMA terdapat 10 record yang tidak relevan sehingga data yang digunakan dalam proses data mining terdiri dari 2775 record dan 6 atribut.
tanpa label kelas yang akan diterapkan pada classifier terbaik. Jadi dataset untuk pembagian data latih dan data uji sebanyak 2747 record. Pada percobaan pertama, menggunakan seluruh dataset sebanyak 2747 record yang proporsi record pada setiap kelas target tidak sama dan metode uji yang digunakan 70% sebagai data latih sedangkan sisanya sebanyak 30% sebagai data uji. Jumlah record untuk data latih dan data uji dari setiap kelas diperlihatkan Tabel 5. Tabel 5 Jumlah record data latih dan data uji percobaan 1
Transformasi Data Karena adanya perbedaan range antar atribut maka perlu dilakukan normalisasi. Normalisasi yang dilakukan bergantung jenis datanya. Untuk atribut nilai uan SMA yang bertipe numerik, normalisasi menggunakan min-max normalization. Nilai maksimum atribut nilai uan SMA sebesar 29,67 sedangkan nilai minimum sebesar 17.13. Contoh normalisasi untuk record pertama berdasarkan rumus normalisasi (persamaan 3) adalah:
Meskipun atribut nilai uan SMA bertipe numerik tetapi bisa dinormalisasi dengan rumus tersebut karena atribut numerik termasuk dalam atribut kontinu. Pada penelitian ini perangkat lunak yang digunakan adalah QtOctave sehingga data yang digunakan disimpan dalam format yang dapat diolah dalam QtOctave yaitu format txt atau .m. Octave merupakan suatu perangkat lunak tiruan dari Matlab untuk komputasi numerik dan visualisasi data sedangkan QtOctave merupakan sebuah antar muka grafis yang dikembangkan untuk program Octave. Antar muka grafis ini dikembangkan untuk menambahkan beberapa fasilitas yang tidak terdapat pada program Octave yang langsung dijalankan dari shell command sehingga program Octave lebih mudah digunakan. Pada QtOctave, perintahperintah yang diberikan tidak dimasukkan secara langsung pada baris perintah, melainkan pada kotak teks masukkan yang terdapat pada bagian bawah dari jendela QtOctave.
Kelas 1 Kelas 2 Kelas 3 Total
Data latih 1033 record 682 record 208 record 1923 record
Data uji 443 record 292 record 89 record 824 record
Data tersebut kemudian diterapkan dalam metode k-Nearest Neighbor melalui tahap-tahap berikut ini: 1 Setiap record data uji dihitung jaraknya ke setiap record data latih untuk mengetahui ukuran kedekatan antara data uji dengan data latih. Untuk data bertipe nominal, selisih antara data uji dengan data latih dilihat dari kesamaan nilai kedua data. Jika nilai data uji sama dengan nilai data latih maka selisihnya 0, tetapi jika nilai data uji berbeda dengan nilai data latih maka selisihnya adalah 1. Untuk data bertipe numerik, selisih antara data uji dengan data latih adalah pengurangan nilai data uji dengan nilai data latih. 2 Penentuan nilai k tetangga terdekat pada percobaan 1 dilakukan dengan mencoba nilai k mulai dari 5 sampai 70 dengan selang 5 angka dalam metode k-Nearest Neighbor. Pada setiap percobaan dengan suatu nilai k dihitung akurasi classifier dan sebaran kelas target ditampilkan dalam histogram. Berdasarkan percobaan sampai nilai k=65, diperoleh bahwa sebaran kelas target mencakup ketiga kelas yaitu resiko rendah, sedang, dan tinggi. Jika nilai k dinaikkan menjadi 70, maka sebaran kelas target untuk kelas 3 (resiko tinggi) tidak tercakup seperti diperlihatkan Gambar 2 dan Gambar 3
Aplikasi Teknik Klasifikasi Dari total data sebanyak 2775 record, diambil 1% data dari setiap kelas target yang akan dihilangkan kelas targetnya sebagai data
7
3 Setiap record data uji dapat ditentukan kelas targetnya berdasarkan kelas utama pada 65 tetangga terdekat. Untuk mengetahui record yang salah diklasifikasikan digunakan matrix confusion yang diperlihatkan Tabel 7. Tabel 7 Matrix confusion untuk percobaan 1
Gambar 2 Histogram kelas target dengan k=65.
Gambar 3 Histogram kelas target dengan k=70. Melihat kondisi tersebut, nilai k akan dipilih antara 5 sampai 65. Akurasi klasifikasi untuk nilai k=5 sampai k=70 diperlihatkan pada Tabel 6. Tabel 6 Akurasi klasifikasi percobaan 1 k 5 10 15 20 25 30 35
akurasi 0.2609 0.3095 0.3325 0.3701 0.3908 0.4078 0.4333
k 40 45 50 55 60 65
akurasi 0.4211 0.4345 0.4454 0.4636 0.4636 0.4757
Berdasarkan tabel tersebut (Tabel 6) akurasi yang diperoleh selisihnya tidak terlalu jauh berbeda. Hal inilah yang menyebabkan percobaan nilai k menggunakan selang 5 angka. Akurasi paling tinggi diperoleh untuk k=65 sehingga pada percobaan ini classifier terbaik diperoleh pada jumlah tetangga terdekat sebanyak 65.
Kelas aktual Kelas 1 Kelas 2 Kelas 3
Kelas hasil prediksi Kelas 1 Kelas 2 Kelas 3 351 250 57
92 41 32
0 1 0
Berdasarkan tabel tersebut (Tabel 7) kelas 1 yang tepat diklasifikasi sebagai kelas 1 sebanyak 351 record, kelas 1 yang salah diklasifikasi sebagai kelas 2 sebanyak 92 record, dan tidak ada kelas 1 yang salah diklasifikasi sebagai kelas 3. Kelas 2 yang tepat diklasifikasi sebagai kelas 2 sebanyak 41 record, kelas 2 yang salah diklasifikasi sebagai kelas 1 sebanyak 250 record, dan kelas 2 yang salah diklasifikasi sebagai kelas 3 sebanyak 1 record. Tidak ada kelas 3 yang tepat diklasifikasi sebagai kelas 3, kelas 3 yang salah diklasifikasi sebagai kelas 1 sebanyak 57 record, dan kelas 3 yang salah diklasifikasi sebagai kelas 2 sebanyak 32 record. Berdasarkan persamaan 5, besarnya akurasi adalah: akurasi =
= 0.4757
Percobaan 2 menggunakan seluruh dataset sebanyak 2747 record yang proporsi record pada setiap kelas target tidak sama, menggunakan tetangga terdekat sebanyak 65 tetapi dengan metode uji 10-fold cross validation. Data dibagi menjadi 10 subset yang berbeda dengan jumlah yang hampir sama. Setiap kali sebuah subset digunakan sebagai data uji maka 9 subset lainnya menjadi data latih. Besarnya akurasi pada setiap proses uji diperlihatkan pada Tabel 8. Tabel 8 Akurasi setiap proses uji pada 10-fold cross validation percobaan 2 proses uji ke1 2 3 4 5 6 7 8
akurasi 0.4436 0.5273 0.5273 0.4073 0.5309 0.5164 0.4873 0.5730
8
proses uji ke9 10
akurasi 0.5292 0.4708
Berdasarkan Tabel 8 akurasi terbaik diperoleh pada proses uji ke-8 yaitu sebesar 0.5730. Matrix confusion untuk proses uji ke-8 pada percobaan 2 adalah: Tabel 9 Matrix confusion proses uji ke-8 percobaan 2 Kelas aktual Kelas 1 Kelas 2 Kelas 3
Kelas hasil prediksi Kelas 1 Kelas 2 Kelas 3 130 71 17
17 27 12
0 0 0
Berdasarkan tabel tersebut (Tabel 9) kelas 1 yang tepat diklasifikasi sebagai kelas 1 sebanyak 130 record, kelas 1 yang salah diklasifikasi sebagai kelas 2 sebanyak 17 record, dan tidak ada kelas 1 yang salah diklasifikasi sebagai kelas 3. Kelas 2 yang tepat diklasifikasi sebagai kelas 2 sebanyak 27 record, kelas 2 yang salah diklasifikasi sebagai kelas 1 sebanyak 71 record, dan tidak ada kelas 2 yang salah diklasifikasi sebagai kelas 3. Kelas 3 tidak ada yang tepat diklasifikasikan sebagai kelas 3, kelas 3 yang salah diklasifikasi sebagai kelas 1 sebanyak 17 record, dan kelas 3 yang salah diklasifikasi sebagai kelas 2 sebanyak 12 record. Berdasarkan persamaan 5, besarnya akurasi adalah: akurasi =
= 0.5730
Akurasi rata-rata dari seluruh proses uji dengan 10 data uji yang berbeda pada percobaan kedua diperoleh sebesar 0.5013. Percobaan 3 menggunakan dataset yang proporsi record pada setiap kelas target seimbang dengan pembagian data 70% data latih dan 30% data uji. Jumlah record untuk data latih dan data uji dari setiap kelas diperlihatkan Tabel 10. Tabel 10 Jumlah record data latih dan data uji percobaan 3 Kelas 1 Kelas 2 Kelas 3 Total
Data latih 208 record 208 record 208 record 624 record
Data uji 89 record 89 record 89 record 267 record
Pada percobaan 3 nilai k atau tetangga terdekat ditentukan lagi seperti halnya pada
percobaan 1 dengan cara mencoba menerapkan nilai k mulai dari 5 sampai 65 dengan selang 5 angka kedalam metode k-Nearest neighbor. Setiap menerapkan suatu nilai k dihitung akurasi klasifikasi tetapi tidak menampilkan histogram sebaran kelas target karena setiap kelas jumlahnya seragam. Akurasi klasifikasi untuk nilai k=5 sampai k=65 diperlihatkan pada Tabel 11. Tabel 11 Akurasi klasifikasi percobaan 3 k 5 10 15 20 25 30 35
akurasi 0.4195 0.4607 0.4270 0.4607 0.4457 0.4569 0.4532
k 40 45 50 55 60 65
akurasi 0.4382 0.4457 0.4644 0.4232 0.4419 0.4494
Berdasarkan tabel tersebut (Tabel 11) akurasi yang paling tinggi diperoleh untuk k=50 sehingga pada percobaan ini jumlah tetangga terdekat adalah 50. Untuk mengetahui record yang salah diklasifikasikan digunakan matrix confusion yang diperlihatkan Tabel 12. Tabel 12 Matrix confusion untuk percobaan 3 Kelas aktual Kelas 1 Kelas 2 Kelas 3
Kelas hasil prediksi Kelas 1 Kelas 2 Kelas 3 56 25 28
22 42 35
11 22 26
Berdasarkan tabel tersebut (Tabel 12) kelas 1 yang tepat diklasifikasi sebagai kelas 1 sebanyak 56 record, kelas 1 yang salah diklasifikasi sebagai kelas 2 sebanyak 22 record, dan kelas 1 yang salah diklasifikasi sebagai kelas 3 sebanyak 11 record. Kelas 2 yang tepat diklasifikasi sebagai kelas 2 sebanyak 42 record, kelas 2 yang salah diklasifikasi sebagai kelas 1 sebanyak 25 record, dan kelas 2 yang salah diklasifikasi sebagai kelas 3 sebanyak 22 record. Kelas 3 yang tepat diklasifikasi sebagai kelas 3 sebanyak 26 record, kelas 3 yang salah diklasifikasi sebagai kelas 1 sebanyak 28 record, dan kelas 3 yang salah diklasifikasi sebagai kelas 2 sebanyak 35 record. Berdasarkan persamaan 5, besarnya akurasi adalah: akurasi =
= 0.4644
9
Percobaan 4 dilakukan menggunakan dataset yang proporsi record pada setiap kelas target seimbang dengan metode 10-fold cross validation. Data dibagi menjadi 10 subset yang berbeda dengan jumlah yang hampir sama. Setiap kali sebuah subset digunakan sebagai data uji maka 9 subset lainnya menjadi data latih. Percobaan ini tetap menggunakan jumlah tetangga terdekat sebanyak 65 karena dataset percobaan 4 sama dengan dataset percobaan 3. Besarnya akurasi pada setiap proses uji diperlihatkan pada Tabel 13.
akurasi =
Akurasi rata-rata dari seluruh proses uji dengan 10 data uji yang berbeda pada percobaan 4 diperoleh sebesar 0.5297. Setiap percobaan yang dilakukan menghasilkan sebuah classifier, sehingga dari empat percobaan diperoleh empat buah classifier. Akurasi setiap classifier diperlihatkan pada Tabel 15. Tabel 15 Akurasi empat classifier
Tabel 13 Akurasi setiap proses uji pada 10-fold cross validation percobaan 4 proses uji ke1 2 3 4 5 6 7 8 9 10
Tabel 14 Matrix confusion proses uji ke-6 percobaan 4 Kelas hadil prediksi Kelas 1 Kelas 2 Kelas 3 24 6 2
5 14 9
Percobaan 1 2 3 4
akurasi 0.5843 0.4382 0.6067 0.5333 0.5393 0.6404 0.5169 0.4944 0.4494 0.4944
Berdasarkan Tabel 13 akurasi terbaik diperoleh pada proses uji ke-6 yaitu sebesar 0.6404. Matrix confusion untuk proses uji ke-6 pada percobaan 4 adalah
Kelas actual Kelas 1 Kelas 2 Kelas 3
= 0.6404
1 9 19
Berdasarkan tabel tersebut (Tabel 14) kelas 1 yang tepat diklasifikasi sebagai kelas 1 sebanyak 24 record, kelas 1 yang salah diklasifikasi sebagai kelas 2 sebanyak 5 record, dan kelas 1 yang salah diklasifikasi sebagai kelas 3 sebanyak 1 record. Kelas 2 yang tepat diklasifikasi sebagai kelas 2 sebanyak 14 record, kelas 2 yang salah diklasifikasi sebagai kelas 1 sebanyak 6 record, dan kelas 2 yang salah diklasifikasi sebagai kelas 3 sebanyak 9 record. Kelas 3 yang tepat diklasifikasi sebagai kelas 3 sebanyak 19 record, kelas 3 yang salah diklasifikasi sebagai kelas 1 sebanyak 2 record, dan kelas 3 yang salah diklasifikasi sebagai kelas 2 sebanyak 9 record. Berdasarkan persamaan 5, besarnya akurasi adalah:
Model yang dihasilkan classifier 1 classifier 2 classifier 3 classifier 4
akurasi 0.4757 0.5013 0.4644 0.5297
Akurasi paling tinggi diperoleh pada classifier 4 yang dihasilkan dari percobaan 4 yaitu menggunakan dataset 891 record yang proporsi record pada setiap kelas target seimbang dengan metode uji 10-fold cross validation. Dengan demikian classifier 4 merupakan classifier terbaik yang dihasilkan dengan metode k–Nearest Neighbor. Penggunaan Classifier pada Data Baru Classifier terbaik yang diperoleh digunakan untuk memprediksi label kelas pada data yang baru. Pada Tabel 16 diberikan contoh data baru tanpa label kelas yang akan diterapkan pada classifier. Tabel 16 Data tanpa label kelas jur
jalur
19 19 19 19 19 19 19 19 19 19 19 19 19 6 19 10 2 5 10 10
1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 2
jenis kel 1 1 0 0 0 1 0 0 0 1 0 0 1 1 1 0 1 0 1 1
asal
hobi
NEM
5 1 5 1 1 1 4 1 1 1 1 1 1 1 1 1 5 6 1 5
1 1 1 1 1 2 1 1 4 2 1 1 1 1 1 1 1 1 1 2
0.8030 0.8565 0.7018 0.8349 0.7927 0.8724 0.7129 0.8134 0.8772 0.6651 0.7974 0.6116 0.8724 0.6276 0.8349 0.5742 0.3987 0.4625 0.3724 0.5159
10
jur 10 10 2 10 2 33 33 30
jalur 1 2 1 1 1 1 1 1
jenis kel 0 1 1 1 1 0 0 1
asal 1 1 1 1 1 1 5 1
hobi 1 2 1 1 4 1 1 1
NEM 0.5000 0.8246 0.6970 0.5638 0.6435 0.7767 0.6061 0.5478
Hasil prediksi data baru tanpa label kelas diperlihatkan pada Tabel 17 Tabel 17 Hasil prediksi data baru tanpa label kelas record 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
kelas prediksi 2 1 2 1 1 1 1 1 1 1 1 1 1 3 1 1 2 2 2 3 2 1 1 2 2 1 2 1
data akademik dan biodata mahasiswa tingkat I IPB. 2 Classifier terbaik dihasilkan dari percobaan 4 yaitu menggunakan dataset 891 record yang proporsi record pada setiap kelas target seimbang dengan metode uji 10-fold cross validation. 3 Akurasi yang diperoleh pada classifier terbaik hanya sebesar 52.97%. 4 Classifier terbaik yang dihasilkan dapat digunakan untuk memprediksi keberhasilan mahasiswa baru IPB. 5 Atribut yang mempengaruhi keberhasilan mahasiswa tingkat berdasarkan uji hipotesis adalah jalur masuk, jenis kelamin, asal hobi, dan nilai uan (NEM).
tingkat I IPB jurusan, daerah,
Saran Pada penelitian ini masih terdapat beberapa kekurangan yang dapat diperbaiki pada penelitian selanjutnya. Beberapa saran yang dapat dilakukan antara lain: 1.
Penggunaan metode lain untuk memperoleh classifier yang lebih baik, karena akurasi classifier dari k-Nearest Neighbor hanya sebesar 52.97% .
2.
Dibangun aplikasi sederhana yang dapat memprediksi keberhasilan mahasiswa baru dengan menerapkan model terbaik.
KESIMPULAN DAN SARAN Kesimpulan Dari beberapa percobaan yang dilakukan terhadap data IPK dan Biodata dengan metode k-Nearest Neighbor, diperoleh kesimpulan sebagai berikut: 1 Metode k-Nearest Neighbor dapat digunakan untuk membuat classifier pada
11