TAKARIR
Data Mining
: Penggalian data
Clustering
: Mengelompokkan suatu objek yang memiliki kesamaan.
Cluster
: Kelompok atau kelas
Iteratif
: Berulang
Random
: Acak
Centroid
: Pusat area
KDD (Knowledge Discovery in Databases) : Penemuan pengetahuan dalam basis data Database
: Basis data
Artificial intelligent
: Kecerdasan buatan
Machine learning
: Mesin pembelajaran
Data selection
: Pemilihan data
Pre-processing
: Sebelum pengolahan
Cleaning
: Pembersihan
Missing value
: Informasi yang hilang
Interpretation
: Interpretasi
BMI ( Body Mass Index )
: Adalah ukuran yang digunakan untuk
menilai
perbandingan berat seseorang. x
proporsionalitas
antara tinggi dan
HAC (Hierarchical Agglomerative Clustering)
: Adalah sebuah metode hierarkis yang
menciptakan
hierarkis yang
komposisi
diterapkan
pada
objek data. Valid
: Sah
Inconsistent
: Tidak konsisten
Task relevan data
: Data tugas yang relevan
Knowledge
: Pengetahuan
Unsupervised
: Tanpa arahan
Hierarchical
: Hirarki
Non hierarchical clustering
: Bukan pengelompokan hirarki
Algoritma Partitional clustering
: Algoritma pengelompokan partisi
Mean
: Rata – rata
Open source
: Perangkat lunak yang kodenya
dapat
dimodifikasi dengan bebas
Data sampling
: Contoh data
Tools
: Alat
Explorer
: Penjelajah
Knowledge flow
: Arus pengetahuan
Experimenter
: Orang yang melakukan percobaan
Simple
: Mudah
Command line
: Garis perintah xi
Data set
: Kumpulan data
Euclidean
: Besarnya jarak suatu garis lurus yang
menghubungkan
antar
objek Euclidean distance
: Jarak Euclidean
Soft data
: Data lunak
Hard
: Keras
Normalization
: Normalisasi
Score
: Nilai
Standard deviation
: Deviasi standar
Decimal scaling
: Penilaian decimal
New data
: Data baru
Data selection
: Pemilihan data
CSV ( Comma Separated Values)
: Adalah suatu format data dalam basis data di mana setiap record dipisahkan dengan tanda koma (,) atau titik koma(;).
Classification
: Klasifikasi
Visualization
: Visualisasi
Association rules
:Aturan asosiasi
Regresi
: Suatu metode analisis statistik yang digunakan untuk melihat pengaruh antara dua atau lebih variabel
Download
: Unduh xii
Remove
: Dihapus
Choose
: Pilih
Unsupervised
: Tanpa pengawasan
Attribute
: Atribut
Apply
: Terapkan
Start
: Mulai
Distance Function
: Fungsi jarak
Result list
: Daftar hasil
Visualize cluster assignment
: Memvisualisasikan tugas klaster
Save
: Simpan
Clusterer visualize
: Visualisasi hasil klaster
Arff viewer
: Tampilan arff
Drop out
: Dikeluarkan
Square error
: Kuadrat kesalahan
Hard disk
: Perangkat keras
SSE ( Sum Of Squared Errors )
: Adalah
antara
ukuran
perbedaan
data dan model estimasi.
ARFF (Attribute-Relation File Format )
: Adalah file yang digunakan Weka yang berisi satu atau lebih instances dari atribut
xiii
DAFTAR ISI
Halaman HALAMAN JUDUL .....................................................................................
i
LEMBAR PENGESAHAN PEMBIMBING ...............................................
ii
LEMBAR PENGESAHAN PENGUJI .........................................................
iii
LEMBAR PERNYATAAN KEASLIAN ....................................................
iv
HALAMAN PERSEMBAHAN ...................................................................
v
HALAMAN MOTTO ...................................................................................
vi
KATA PENGANTAR ...................................................................................
vii
SARI ...............................................................................................................
ix
TAKARIR ......................................................................................................
x
DAFTAR ISI ..................................................................................................
xiv
DAFTAR TABEL .........................................................................................
xvi
DAFTAR GAMBAR .....................................................................................
xvii
DAFTAR LAMPIRAN .................................................................................
xix
BAB I
PENDAHULUAN .................................................................
1
1.1
Latar Belakang ............................................................
1
1.2
Rumusan Masalah .......................................................
2
1.3
Batasan Masalah .........................................................
3
1.4
Tujuan Penelitian ........................................................
3
1.5
Manfaat Penelitian ......................................................
3
1.6
Metodologi Penelitian .................................................
4
1.7
Sistematika Penulisan ................................................. xiv
5
BAB II
TINJAUAN PUSTAKA.........................................................
7
2.1
Penelitian Terdahulu ....................................................
7
2.2
Data Mining .................................................................
8
2.3
Clustering .....................................................................
11
2.4
Algoritma K-Means .....................................................
11
2.5
Weka ............................................................................
12
PEMODELAN ......................................................................
14
3.1
Identifikasi Masalah ....................................................
14
3.2
Model Keputusan ........................................................
20
3.2.1 Pseudocode ......................................................
21
3.2.2 Diagram Alir ...................................................
23
HASIL DAN PEMBAHASAN ............................................
29
4.1
Metodologi Penelitian .................................................
29
4.1.1 Metode Pengumpulan Data .............................
29
4.1.2 Studi Pustaka ...................................................
29
4.1.3 Metode Analisis Data ......................................
29
Implementasi dengan Weka ........................................
32
4.2.1 Normalisasi .....................................................
36
4.2.2 Clustering ........................................................
38
4.3
Hasil Implementasi ......................................................
46
4.4
Analisis Hasil Implementasi .......................................
48
4.5
Hitung Nilai SSE .........................................................
55
4.6
Komputasi ...................................................................
57
4.7
Pengguna .....................................................................
57
PENUTUP ...............................................................................
59
5.1
Kesimpulan ..................................................................
59
5.2
Saran .............................................................................
59
DAFTAR PUSTAKA ....................................................................................
60
LAMPIRAN ...................................................................................................
62
BAB III
BAB IV
4.2
BAB V
xv
DAFTAR TABEL
Halaman Tabel 3.1
Tabel Data Mahasiswa .................................................................
16
Tabel 3.2
Tabel Perubahan Tahun Akademik ..............................................
17
Tabel 3.3
Tabel Normalisasi .......................................................................
19
Tabel 3.4
Tabel Data Awal .........................................................................
24
Tabel 3.5
Tabel Centroid Pada Iterasi Ke – 0 ..............................................
24
Tabel 3.6
Tabel Hitung Jarak .......................................................................
26
Tabel 3.7
Tabel Hasil Perhitungan Jarak dan Pengelompokan Data ...........
26
Tabel 3.8
Tabel Centroid Pada Iterasi Ke – 1 ..............................................
26
Tabel 3.9
Tabel Hasil Perhitungan Jarak dan Pengelompokan Data iterasi–1 ......................................................................................................
27
Tabel 3.10 Tabel Centroid Pada Iterasi Ke – 2 .............................................
27
Tabel 3.11 Tabel Hasil Perhitungan Jarak dan Pengelompokan Data iterasi–2 ......................................................................................................
27
Tabel 3.12 Tabel Centroid Pada Iterasi Ke – 3 .............................................
28
Tabel 4.1
Tabel Contoh Data Mahasiswa ...................................................
30
Tabel 4.2
Tabel Data Setelah Dibersihkan ..................................................
31
Tabel 4.3
Tabel Data Mahasiswa ................................................................
33
Tabel 4.4
Tabel Cluster 0 Pengelompokan 4 cluster ...................................
56
xvi
DAFTAR GAMBAR
Halaman Gambar 2.1
Gambar Proses Data Mining ...................................................
9
Gambar 3.1
Gambar Diagram Alir Algoritma K-Means ............................
23
Gambar 4.1
Gambar Tampilan Weka .........................................................
32
Gambar 4.2
Gambar Tampilan Open File Weka ........................................
34
Gambar 4.3
Gambar Tampilan Statistik Atribut .........................................
35
Gambar 4.4
Gambar Tabel Sumber Data pada Weka .................................
36
Gambar 4.5
Gambar Menu Filter Untuk Normalisasi .................................
37
Gambar 4.6
Gambar Statistik Data Setelah Normalisasi ............................
37
Gambar 4.7
Gambar Tabel Hasil Normalisasi ............................................
38
Gambar 4.8
Gambar Memilih Metode Clustering ......................................
39
Gambar 4.9
Gambar Masukkan Jumlah Cluster .........................................
40
Gambar 4.10 Gambar Menu Clustering Pada Weka .....................................
40
Gambar 4.11 Gambar Pilihan Distance Function .........................................
41
Gambar 4.12 Gambar Menentukan Jumlah Iterasi .......................................
42
Gambar 4.13 Gambar Hasil Clustering .........................................................
43
Gambar 4.14 Gambar Tampilan Untuk Menyimpan File Hasil Cluster ......
43
Gambar 4.15 Gambar Weka Clusterer Visualize ..........................................
44
Gambar 4.16 Gambar ArffViewer ................................................................
44
Gambar 4.17 Gambar Hasil Clustering 3 Cluster Dengan ARFF Viewer ....
45
xvii
Gambar 4.18 Gambar Data Hasil Clustering 3 Cluster Sebelum Dan Setelah Normalisasi .................................................................
45
Gambar 4.19 Gambar Hasil Clustering 3 Cluster .........................................
46
Gambar 4.20 Gambar Pengelompokan 4 cluster ...........................................
47
Gambar 4.21 Gambar Pengelompokan 5 cluster ...........................................
48
xviii
DAFTAR LAMPIRAN
Halaman Lampiran 1
Tabel Hasil Clustering Dengan 3 Cluster ................................
62
Lampiran 2
Tabel Hasil Clustering Dengan 4 Cluster ................................
69
Lampiran 3
Tabel Hasil Clustering Dengan 5 Cluster ................................
75
xix