perpustakaan.uns.ac.id
digilib.uns.ac.id
PENERAPAN DATA MINING MENGGUNAKAN ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA SMA NEGERI 2 SURAKARTA
oleh NADYA AL FITRIANI M0111060
SKRIPSI ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar Sarjana Sains Matematika
PROGRAM STUDI MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET
commit to user SURAKARTA 2016
perpustakaan.uns.ac.id
digilib.uns.ac.id
PENERAPAN DATA MINING MENGGUNAKAN ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA SMA NEGERI 2 SURAKARTA
oleh NADYA AL FITRIANI M0111060
SKRIPSI ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar Sarjana Sains Matematika
PROGRAM STUDI MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET commit to user SURAKARTA 2016 i
perpustakaan.uns.ac.id
digilib.uns.ac.id
commit to user
ii
perpustakaan.uns.ac.id
digilib.uns.ac.id
ABSTRAK Nadya Al Fitriani. 2016. PENERAPAN DATA MINING MENGGUNAKAN ALGORITME C4.5 DALAM PENENTUAN JURUSAN SISWA SMA NEGERI 2 SURAKARTA. Fakultas Matematika dan Ilmu Pengetahuan Alam. Universitas Sebelas Maret. Data mining merupakan proses eksplorasi terhadap data yang berukuran besar untuk menemukan pola dalam pengambilan keputusan. Salah satu teknik dalam pengambilan keputusan adalah klasifikasi. Klasifikasi adalah teknik dalam data mining dengan menerapkan metode pohon keputusan untuk membentuk data dalam grup atau kelas. Algoritme yang digunakan dalam pohon keputusan adalah algoritme C4.5. Pada dunia pendidikan, proses penentuan jurusan siswa adalah hal penting yang perlu diputuskan dengan benar. Tujuan dalam penelitian ini untuk menentukan penjurusan siswa SMA menggunakan algoritme C4.5. Berdasarkan pembahasan dapat disimpulkan bahwa algoritme C4.5 dapat digunakan dalam klasifikasi penjurusan karena memiliki akurasi tinggi. Dalam penelitian ini, penentuan jurusan diperoleh dengan menghitung jumlah kasus IPA dan IPS tiap atribut, entropy, gain, split info dan gain ratio. Hasil pengujian terhadap nilai siswa SMA Negeri 2 Surakarta pada data testing yang dilakukan sebanyak lima kali secara random, diperoleh rata-rata persentase keakuratan sebesar 86,82% dengan recall 92,19% dan presisi 88,17%. Sedangkan hasil pengujian secara keseluruhan presentase keakuratan sebesar 89,78%. Kata kunci: data mining, klasifikasi, algoritme C4.5
commit to user
iii
perpustakaan.uns.ac.id
digilib.uns.ac.id
ABSTRACT Nadya Al Fitriani. 2016. APLICATION OF C4.5 ALGORITHM USING DATA MINING IN DETERMINING MAJORS OF STUDENTS HIGH SCHOOL 2 SURAKARTA. Faculty of Mathematics and Natural Sciences, Sebelas Maret University. Data mining is the process of exploration of the large-sized data to determine patterns in decision-making. One techniques in decision making is classification. Classification is a technique in data mining by applying decision tree method for forming into groups or classes. Algorithm C4.5 is used in the algorithm decision tree. In education areas, the process of determining the student major is the important thing to be decided correctly. The purpose of this research is to determine the placement of students SMA using algorithms C4.5. Based on the discussion it can be concluded that the algorithm is C4.5 can be used in the classification of majors because it has high accuracy. In this study, the determination of the majors is obtained by counting the number of cases of each attribute science and social studies, entropy, gain, split info, and gain ratio. The test results of students at SMA Negeri 2 Surakarta on testing data is performed five times randomly, which is obtained an average percentage of 86.82% accuracy with recall 92.19%, and precision 88.17% . While the test results overall percentage accuracy of 89.78%. Keywords: data mining, classification, algorithm c4.5
commit to user
iv
perpustakaan.uns.ac.id
digilib.uns.ac.id
MOTTO
Jika engkau berat untuk menjalani ujian yang berat, ingatlah Allah tidak membebani seseorang melainkan sesuai dengan kesanggupannya. (QS. Al-Baqarah[2] : 286)
commit to user
v
perpustakaan.uns.ac.id
digilib.uns.ac.id
PERSEMBAHAN
Saya persembahkan karya ini untuk Kedua Orangtua Saya
commit to user
vi
perpustakaan.uns.ac.id
digilib.uns.ac.id
KATA PENGANTAR
Segala puji dan syukur penulis panjatkan kepada Allah SWT yang telah melimpahkan rahmat dan hidayah-Nya sehingga penulis berhasil menyelesaikan skripsi ini. Dalam penyusunan skripsi ini penulis telah mendapatkan bantuan dari banyak pihak. Oleh karena itu penulis mengucapkan terima kasih kepada 1. Bapak Drs. Isnandar Slamet, M.Sc., Ph.D. sebagai Pembimbing I yang telah memberikan bimbingan materi dan memberikan arahan dalam menyelesaikan skripsi. 2. Prof. Drs. Tri Atmojo K, M.Sc., Ph.D. sebagai Pembimbing II yang telah memberi bimbingan, motivasi dan arahan dalam penulisan skripsi. 3. Teman-teman yang telah memberikan saran dan semangat. Penulis berharap semoga laporan ini bermanfaat.
Surakarta, Agustus 2016
Penulis
commit to user
vii
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR ISI
I
HALAMAN JUDUL . . . . . . . . . . . . . . . . . . . . . . . . . . . .
i
ABSTRAK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iii
ABSTRACT
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iv
MOTTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
v
PERSEMBAHAN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vi
KATA PENGANTAR . . . . . . . . . . . . . . . . . . . . . . . . . . .
vii
DAFTAR ISI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ix
DAFTAR TABEL . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
x
DAFTAR GAMBAR . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xi
PENDAHULUAN
1
1.1
Latar Belakang . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1.2
Perumusan Masalah
. . . . . . . . . . . . . . . . . . . . . . . . .
3
1.3
Batasan Masalah . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.4
Tujuan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.5
Manfaat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
II LANDASAN TEORI
4
2.1
Tinjauan Pustaka . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
2.2
Teori Penunjang . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2.1
Data Mining
. . . . . . . . . . . . . . . . . . . . . . . . .
5
2.2.2
Klasifikasi . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
2.2.3
Pohon Keputusan .commit . . . .to. user . . . . . . . . . . . . . . . . .
7
2.2.4
Algoritme C4.5 . . . . . . . . . . . . . . . . . . . . . . . .
8
viii
perpustakaan.uns.ac.id
2.3
digilib.uns.ac.id
2.2.5
Pengujian . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
2.2.6
Software Tanagra . . . . . . . . . . . . . . . . . . . . . . .
11
Kerangka Pemikiran . . . . . . . . . . . . . . . . . . . . . . . . .
12
III METODE PENELITIAN
14
IV PEMBAHASAN
16
4.1
Deskripsi Atribut Data . . . . . . . . . . . . . . . . . . . . . . . .
16
4.2
Analisis Algoritme C4.5 . . . . . . . . . . . . . . . . . . . . . . .
16
4.3
Interpretasi Pohon Klasifikasi . . . . . . . . . . . . . . . . . . . .
25
4.4
Pengujian dan Evaluasi . . . . . . . . . . . . . . . . . . . . . . . .
26
V PENUTUP
30
5.1
Kesimpulan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
5.2
Saran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
DAFTAR PUSTAKA
31
LAMPIRAN
32
Lampiran 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
Lampiran 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
commit to user
ix
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR TABEL
2.1
Confusion Matrix . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
4.1
Atribut Nilai Siswa . . . . . . . . . . . . . . . . . . . . . . . . . .
16
4.2
Perhitungan Node 1
. . . . . . . . . . . . . . . . . . . . . . . . .
17
4.3
Perhitungan Node 2 Biologi C . . . . . . . . . . . . . . . . . . . .
19
4.4
Perhitungan Node 3 Biologi C Kimia B . . . . . . . . . . . . . . .
21
4.5
Perhitungan Node 4.1 Biologi C Kimia B Ekonomi C . . . . . . .
22
4.6
Perhitungan Node 4.2 Biologi C Kimia B Ekonomi B . . . . . . .
24
4.7
Hasil Pengujian Data Training secara Keseluruhan . . . . . . . .
26
4.8
Hasil Testing 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
4.9
Hasil Testing 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
4.10 Hasil Testing 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
4.11 Hasil Testing 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
4.12 Hasil Testing 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
4.13 Hasil Evaluasi . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
29
commit to user
x
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR GAMBAR
2.1
Menu dalam Tanagra . . . . . . . . . . . . . . . . . . . . . . . . .
12
2.2
Diagram Alur Algoritme C4.5 . . . . . . . . . . . . . . . . . . . .
13
4.1
Pohon Keputusan Perhitungan Biologi C Kimia B . . . . . . . . .
25
commit to user
xi