PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PENGELOMPOKAN SEKOLAH MENENGAH ATAS DI PROVINSI DAERAH ISTIMEWA YOGYAKARTA BERDASARKAN NILAI UJIAN NASIONAL MENGGUNAKAN ALGORITMA AGGLOMERATIVE HIERARCHICAL CLUSTERING
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika
Disusun Oleh : Vina Puspitasari 125314025
PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2016 i
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
CLUSTERING OF SENIOR HIGH SCHOOL IN SPECIAL REGION OF YOGYAKARTA PROVINCE BASED ON THE SCORE OF NATIONAL EXAM USING AGGLOMERATIVE HIERARCHICAL CLUSTERING ALGORITHM
FINAL PROJECT
Presented as Partial Fulfillment of the Requirements to Obtain the Sarjana Komputer Degree in Informatics Engineering Study Program
By: Vina Puspitasari 125314025
INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 2016 ii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
HALAMAN PERSEMBAHAN
“Orang yang ingin bergembira harus menyukai kelelahan akibat bekerja”
~ Plato ~
“Bersabar dalam pencobaan, berjaga-jaga dalam doa dan jangan pernah berhenti bekerja” ~ St. Fransiskus dari Asisi ~
Karya ini kupersembahkan kepada : Tuhan Yesus Kristus Bunda Maria Keluarga
v
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ABSTRAK Penambangan data (data mining) merupakan proses penemuan informasi otomatis dengan mengidentifikasi pola dari set data atau basis data besar. Proses penemuan informasi tersebut dapat dilakukan dengan metode pengelompokan data ke dalam beberapa kelompok dari sebuah set data yang dalam penambangan data disebut metode clustering. Clustering merupakan proses mempartisi data-set menjadi beberapa sub-set atau kelompok berdasarkan kesamaan karakteristik masing-masing data pada kelompok-kelompok yang ada. Salah satu algoritma clustering yaitu Agglomerative Hierarchical Clustering (AHC) di mana algoritma ini merupakan algoritma pengelompokan berbasis hirarki dengan pendekatan bottom up, yaitu proses pengelompokan dimulai dari masing-masing data sebagai satu buah cluster, kemudian secara rekursif mencari cluster terdekat sebagai pasangan untuk bergabung sebagai satu cluster yang lebih besar. Pada tugas akhir ini diimplementasikan algoritma Agglomerative Hierarchical Clustering metode single linkage, complete linkage, dan average linkage untuk mengelompokkan Sekolah Menengah Atas di Provinsi DIY berdasarkan nilai Ujian Nasional tahun 2015. Hasil pengelompokan dapat digunakan untuk membantu penugasan pengawas sekolah untuk mendampingi sekolah. Dalam melakukan proses mengubah data mentah menjadi suatu informasi yang lebih bermanfaat, penulis menggunakan proses Knowledge Discovery in Database (KDD) yang terdiri dari pembersihan data, integrasi data, seleksi data, transformasi data, penambangan data, evaluasi pola, dan presentasi pengetahuan. Pada tahap awal KDD akan dilakukan pembersihan data dan integrasi data secara manual melalui aplikasi spreadsheet. Selanjutnya dilakukan seleksi data, tranformasi data, dan penambangan data dengan menggunakan perangkat lunak yang dibuat. Tahap selanjutnya yaitu evaluasi pola dan presentasi pengetahuan. Berdasarkan penelitian yang telah dilakukan, dapat diketahui bahwa algoritma Agglomerative Hierarchical Clustering (AHC) dapat digunakan untuk mengelompokkan Sekolah Menengah Atas di Provinsi DIY berdasarkan nilai Ujian Nasional. Hasil evaluasi cluster menunjukkan bahwa pengelompokan menggunakan algoritma AHC dengan metode single linkage memiliki struktur yang kuat. Sedangkan hasil pengelompokan menggunakan metode complete linkage dan average linkage memiliki struktur pengelompokan yang baik. Berdasar peraturan Mentri Pendidikan dan Kebudayaan no.143 tahun 2014 tentang petunjuk teknis pelaksanaan jabatan fungsional pengawas sekolah dan angka kreditnya di mana pengawas bertugas untuk mendampingi minimal 7 sekolah, pada kasus ini tidak dapat menggunakan metode single linkage karena selalu menghasilkan kelompok yang memiliki 1 anggota. Metode complete linkage memberikan hasil yang efektif jika kelompok pendampingan dibagi menjadi 2 dan 3 kelompok untuk jurusan IPA, sedangkan untuk jurusan IPS dibagi menjadi 2 sampai 6 kelompok. Metode average linkage memberikan hasil yang efektif jika kelompok pendampingan dibagi menjadi 2 kelompok untuk jurusan IPA, sedangkan untuk jurusan IPS dibagi menjadi 2 sampai 4 kelompok. Kata Kunci – Penambangan Data, Algoritma Agglomerative Hierarchical Clustering , Nilai Ujian Nasional
vii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ABSTRACT Data mining is a process to find information by identifying pattern from data set or big database automatically. The finding process can be done by clustering data to some clusters from data set in data mining called clustering method. Clustering is known as a partition process of data set into some sub-sets or clusters, based on the same characateristics of each data in clusters. One of clustering algorithm is Agglomerative Hierarchical Clustering (AHC), which is a clustering algorithm based on hierarchy with bottom up approach. Bottom up approach is a clustering process that start from each data as one cluster, then find the closest cluster in recursive to be merged into one bigger cluster. This undergraduate thesis implemented Agglomerative Hierarchical Clustering algorithm by using single linkage method, complete linkage method, and average method to cluster Senior High Schools in Special Region of Yogyakarta Province based on the score of national examination in 2015. The clustering result can be used to help the assigment of school supervisors in assisting schools. In the process of converting raw data into useful information, the writer used Knowledge Discovery in Database (KDD) process which consist of data cleansing, data integration, data selection, data transformation, data mining, pattern of evaluation, and knowledge presentation. In the early stage of KDD process, the writer performed data cleansing and data integration manually by using spreadsheet application. The next processes are data selection, data transformation, and data mining, which were done by using the invented software. The last steps are pattern evaluation and knowledge presentation. Based on the research that has been done, it can be concluded that Knowledge Discovery in Database (KDD) algorithm can be used for clustering Senior High School in Special Region of Yogyakarta Province based on the score of national examination. The result of cluster evaluation showing that the clustering process using AHC algorithm with single linkage method has a strong clustering structure, while complete linkage and average linkage have a good clustering structure. Based on the regulation of Ministry of Education and Culture no. 143/2014 one school supervisor should observe seven schools at minimum. Therefore, the single linkage method is not appropriate because there always be a cluster that have one member. For natural science major, the complete linkage method gives effective result when the schools are divided into 2 and 3 clusters, while for social science major the schools are divided into 2 until 6 clusters. The average linkage method gives effective result when the schools are divided into 2 clusters for natural science major and 2 up to 4 clusters for social science major. Keyword – Data Mining, Agglomerative Hierarchical Clustering Algorithm, Score of National Examination
viii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
KATA PENGANTAR Puji syukur kepada Tuhan Yesus Kristus, atas segala berkat dan karunia sehingga
penulis
dapat
menyelesaikan
tugas
akhir
yang
berjudul
“PENGELOMPOKAN SEKOLAH MENENGAH ATAS DI PROVINSI DAERAH ISTIMEWA YOGYAKARTA BERDASARKAN NILAI UJIAN NASIONAL
MENGGUNAKAN
ALGORITMA
AGGLOMERATIVE
HIERARCHICAL CLUSTERING”. Tugas akhir ini ditulis sebagai salah satu syarat memperoleh gelar sarjana program studi Teknik Informatika, Fakultas Sains dan Teknologi Universitas Sanata Dharma. Penulisan tugas akhir ini berjalan dengan baik dari awal hingga akhir karena adanya dukungan doa, semangat dan motivasi yang diberikan oleh banyak pihak. Untuk itu, penulis ingin mengucapkan terima kasih kepada : 1.
Tuhan Yesus Kristus dan Bunda Maria yang selalu memberikan berkat dan kekuatan sehingga penulis dapat menyelesaikan tugas akhir ini.
2.
Kedua orang tua penulis, Yohanes Albertus Santoso, S.E. dan Maria Goretti Giyarni atas doa, kasih sayang, perhatian, kepercayaan, dukungan baik moral maupun finansial yang diberikan kepadaku.
3.
Adik penulis, Elisabeth Griselda Petrina yang selalu mendoakan dan memberi dukungan dalam penyusunan tugas akhir.
4.
Bapak Sudi Mungkasi, S.Si., M.Math.Sc.,Ph.D selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma.
5.
Ibu Dr. Anastasia Rita Widiarti selaku Ketua Program Studi Teknik Informatika Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta.
6.
Ibu Paulina Heruningsih Prima Rosa, S.Si., M.Sc. selaku Dosen Pembimbing yang telah dengan sabar membimbing dan memberikan motivasi.
7.
Bapak Puspaningtyas Sanjoyo Adi, S.T.,M.T. selaku Dosen Pembimbing Akademik penulis.
8.
Seluruh Dosen, skretariat, laboran, staff jurusan Teknik Informatika Universitas Sanata Dharma yang telah membi,bing dan membantu selama proses perkuliahan di Universitas Sanata Dharma.
x
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR ISI
HALAMAN JUDUL .......................................................................................................... i TITLE PAGE ..................................................................................................................... ii HALAMAN PERSETUJUAN ........................................................................................ iii HALAMAN PENGESAHAN ...........................................................................................iv HALAMAN PERSEMBAHAN ....................................................................................... v PERNYATAAN KEASLIAN KARYA ...........................................................................vi ABSTRAK ........................................................................................................................vii ABSTRACT ..................................................................................................................... viii PERSETUJUAN PUBLIKASI KARYA ILMIAH ........................................................ix KATA PENGANTAR ....................................................................................................... x DAFTAR ISI..................................................................................................................... xii DAFTAR GAMBAR ........................................................................................................ xv DAFTAR TABEL ........................................................................................................... xvi BAB I PENDAHULUAN .................................................................................................. 1 1.1
LATAR BELAKANG................................................................................ 1
1.2
RUMUSAN MASALAH............................................................................ 2
1.3
TUJUAN PENELITIAN ........................................................................... 2
1.4
BATASAN MASALAH ............................................................................. 3
1.5
MANFAAT PENELITIAN ....................................................................... 3
1.6
SISTEMATIKA PENULISAN ................................................................. 3
BAB II LANDASAN TEORI ........................................................................................... 5 2.1.
PENAMBANGAN DATA ......................................................................... 5
2.1.1.
Pengertian Penambangan Data ................................................................ 5
2.1.2.
Fungsi Penambangan Data ....................................................................... 5
2.1.3.
Knowledge Discovery in Database (KDD) ................................................. 6
2.2.
Ujian Nasional (UN)................................................................................... 7
2.3
Analisis Cluster ........................................................................................... 8
2.3.1.
Konsep Clustering ...................................................................................... 8
2.3.2.
Silhouette Coefficient................................................................................ 10
2.4
Algoritma Agglomerative Hierarchical Clustering (AHC) .................... 13
BAB III METODOLOGI PENELITIAN ..................................................................... 15 3.1.
SUMBER DATA ...................................................................................... 15
xii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
SPESIFIKASI ALAT .............................................................................. 15
3.2. 3.2.1.
Hardware ................................................................................................... 15
3.2.2.
Software ..................................................................................................... 15 TAHAP-TAHAP PENELITIAN ............................................................ 15
3.3. 3.3.1.
Studi Kasus ............................................................................................... 15
3.3.2.
Penelitian Pustaka.................................................................................... 16
3.3.3.
Knowledge Discovery in Database (KDD) ............................................... 16
3.3.4.
Pengembangan Perangkat Lunak .......................................................... 16
BAB IV PEMROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK 18 PEMROSESAN AWAL .......................................................................... 18
4.1 4.1.1
Pembersihan Data (Data Cleaning) ........................................................ 18
4.1.2
Integrasi Data (Data Integration)............................................................ 18
4.1.3
Seleksi Data (Data Selection) ................................................................... 18
4.1.4
Transformasi Data (Data Transformation) ............................................ 20 PERANCANGAN PERANGKAT LUNAK .......................................... 21
4.2 4.2.1
Perancangan Umum ................................................................................ 21
4.2.1.1
Input Sistem ......................................................................................... 21
4.2.1.2
Proses Sistem ....................................................................................... 21
4.2.1.3
Output Sistem ....................................................................................... 22
4.2.2
Diagram Use Case .................................................................................... 23
4.2.2.1
Gambaran Umum Use Case ............................................................... 23
4.2.2.2
Narasi Use Case ................................................................................... 24
4.2.3
Diagram Aktivitas .................................................................................... 24
4.2.4
Diagram Kelas Analisis ........................................................................... 25
4.2.5
Diagram Kelas Desain ............................................................................. 25
4.2.6
Diagram Sekuen ....................................................................................... 25
4.2.7
Perancangan Struktur Data .................................................................... 25
4.2.8
Algoritma Setiap Method ........................................................................ 27
4.2.9
Perancangan Antarmuka ........................................................................ 27
4.2.9.1
Perancangan Halaman Beranda ........................................................ 27
4.2.9.2
Perancangan Halaman AHC.............................................................. 28
4.2.9.3
Perancangan Halaman Bantuan ........................................................ 29
BAB V IMPLEMENTASI DAN EVALUASI HASIL ................................................. 30 5.1 5.1.1
IMPLEMENTASI RANCANGAN PERANGKAT LUNAK ............... 30 Implementasi Kelas View ........................................................................ 30 xiii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5.1.2
Implementasi Kelas Kontrol ................................................................... 31 EVALUASI HASIL ................................................................................. 32
5.2 5.2.1
Pengujian Perangkat Lunak (Black Box) .............................................. 32
5.2.1.1
Rencana Pengujian Black Box ........................................................... 32
5.2.1.2
Prosedur Pengujian Black Box dan Kasus Uji ................................. 32
5.2.1.3
Evaluasi Pengujian Hasil Black Box.................................................. 32
5.2.2
Pengujian Perbandingan Hasil Hitung Manual dengan Hasil Perangkat Lunak ..................................................................................... 33
5.2.2.1
Perhitungan Manual ........................................................................... 33
5.2.2.2
Perhitungan Perangkat Lunak .......................................................... 34
5.2.2.3
Evaluasi Pengujian Perbandingan Hitung Manual dengan Hasil Perangkat Lunak ................................................................................ 35
5.2.3
Pengujian Perbandingan Hasil Perangkat Lunak dengan Hasil Perangkat Lunak Lainnya (Orange) ...................................................... 36
5.2.3.1
Perhitungan Perangkat Lunak .......................................................... 36
5.2.3.2
Perhitungan Perangkat Lunak Lainnya (Orange)........................... 36
5.2.3.3
Evaluasi Pengujian Perbandingan Perhitungan Hasil Perangkat Lunak dengan Perangkat Lunak Lainnya (Orange). ...................... 37
5.2.4 5.2.4.1 5.3
Pengujian Perangkat Lunak dengan Menggunakan Dataset .............. 38 Evaluasi Hasil Clustering .................................................................... 38 KELEBIHAN DAN KEKURANGAN PERANGKAT LUNAK ......... 53
5.3.1
Kelebihan Perangkat Lunak ................................................................... 53
5.3.2
Kekurangan Perangkat Lunak ............................................................... 53
BAB VI PENUTUP ......................................................................................................... 54 6.1
SIMPULAN .............................................................................................. 54
6.2
SARAN...................................................................................................... 55
DAFTAR PUSTAKA ...................................................................................................... 56 LAMPIRAN..................................................................................................................... 57
xiv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR GAMBAR Gambar 2. 2 Tahapan Proses KDD ......................................................................... 6 Gambar 4. 1 Diagram Konteks.............................................................................. 21 Gambar 4. 2 Flowchart ......................................................................................... 22 Gambar 4. 3 Diagram Use Case............................................................................ 23 Gambar 4. 4 Diagram Kelas Analisis .................................................................... 25 Gambar 4. 5 Perancangan Array ........................................................................... 26 Gambar 4. 6 Ilustrasi Konsep Arraylist ................................................................ 26 Gambar 4. 7 Perancangan Halaman Beranda ........................................................ 28 Gambar 4. 8 Perancangan Halaman AHC............................................................. 28 Gambar 4. 9 Perancangan Halaman Bantuan ........................................................ 29 Gambar 5. 1 Interface View_Beranda .................................................................. 30 Gambar 5. 2 Interface View_AHC ....................................................................... 31 Gambar 5. 3 Interface View_Bantuan .................................................................. 31 Gambar 5. 4 Hasil Penambangan Data Metode Single linkage Menggunakan Perangkat Lunak .............................................................................. 34 Gambar 5. 5 Hasil Penambangan Data Metode Complete linkage Menggunakan Perangkat Lunak .............................................................................. 35 Gambar 5. 6 Hasil Penambangan Data Metode Average linkage Menggunakan Perangkat Lunak .............................................................................. 35 Gambar 5. 7 Hasil Perhitungan Metode Single linkage Menggunakan Aplikasi Orange .............................................................................................. 37 Gambar 5. 8 Hasil Perhitungan Metode Complete linkage Menggunakan Aplikasi Orange .............................................................................................. 37 Gambar 5. 9 Hasil Perhitungan Metode Average linkage Menggunakan Aplikasi Orange .............................................................................................. 37 Gambar 5. 10 Grafik Perhitungan Nilai Silhouette Coefficient Terhadap Jumlah Cluster SMA Jurusan IPA Pada Metode Single linkage.................. 42 Gambar 5. 11 Grafik Perhitungan Nilai Silhouette Coefficient Terhadap Jumlah Cluster SMA Jurusan IPA Pada Metode Complete linkage ............ 43 Gambar 5. 12 Grafik Perhitungan Nilai Silhouette Coefficient Terhadap Jumlah Cluster SMA Jurusan IPA Pada Metode Average linkage .............. 44 Gambar 5. 13 Grafik Perhitungan Nilai Silhouette Coefficient Terhadap Jumlah Cluster SMA Jurusan IPS Pada Metode Single linkage .................. 50 Gambar 5. 14 Grafik Perhitungan Nilai Silhouette Coefficient Terhadap Jumlah Cluster SMA Jurusan IPS Pada Metode Complete linkage ............. 51 Gambar 5. 15 Grafik Perhitungan Nilai Silhouette Coefficient Terhadap Jumlah Cluster SMA Jurusan IPS Pada Metode Average linkage ............... 52
xv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR TABEL
Tabel 3. 1 Kriteria subjetif pengukuran pengelompokan berdasarkan Silhouette Coefficient (SC) .................................................................................... 12 Tabel 4.1 Atribut dari data asli nilai Ujian Nasional SMA jurusan IPA............... 18 Tabel 4. 2 Atribut dari data asli nilai Ujian Nasional SMA jurusan IPS .............. 19 Tabel 4. 3 Atribut terseleksi dari data nilai Ujian Nasional SMA jurusan IPA .... 20 Tabel 4. 4 Atribut terseleksi dari data nilai Ujian Nasional SMA jurusan IPS..... 20 Tabel 4. 5 Gambaran Umum Use Case................................................................. 24 Tabel 4. 6 Perancangan HashMap ........................................................................ 27 Tabel 5. 1 Implementasi kelas view ...................................................................... 30 Tabel 5. 2 Implementasi kelas Controler .............................................................. 31 Tabel 5. 3 Rencana Pengujian Black Box.............................................................. 32 Tabel 5. 4 Dataset Pengujian................................................................................. 33 Tabel 5. 5 Perhitungan Hasil Silhouette Coefficient (SC) Jurusan IPA ................ 38 Tabel 5. 6 Perhitungan Hasil Silhouette Coefficient (SC) Jurusan IPS ................ 45
xvi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB I PENDAHULUAN 1.1
LATAR BELAKANG Penambangan data (data mining) merupakan proses penemuan informasi
otomatis dengan mengidentifikasi pola dari set data atau basis data besar. Penambangan data dapat diterapkan dalam bidang apapun, salah satunya pada bidang pendidikan. Dalam bidang pendidikan, data-data pendidikan dapat diterapkan dalam penambangan data untuk dilakukan proses penemuan informasi dalam waktu yang singkat. Proses penemuan informasi tersebut dapat dilakukan dengan metode pengelompokkan data ke dalam beberapa kelompok dari sebuah set data atau dalam data mining disebut metode clustering. Clustering merupakan proses mempartisi data-set menjadi beberapa sub-set atau kelompok berdasarkan kesamaan karakteristik masing-masing data pada kelompok-kelompok yang ada. Data-data yang masuk ke dalam batas kesamaan dengan kelompoknya akan bergabung dengan kelompok tersebut, dan akan terpisah dalam kelompok yang berbeda jika keluar dari batas kesamaan kelompok tersebut. Salah satu algoritma clustering adalah Agglomerative Hierarchical Clustering (AHC). Agglomerative
Hierarchical
Clustering
(AHC)
adalah
metode
pengelompokan berbasis hirarki dengan pendekatan bottom up, yaitu proses pengelompokan dimulai dari masing-masing data sebagai satu buah cluster, kemudian secara rekursif
mencari cluster terdekat sebagai pasangan untuk
bergabung sebagai satu cluster yang lebih besar. Agglomerative hierarchical Clustering (AHC) dapat diimplementasikan pada sekumpulan data numerik dalam proses pengelompokan data. Salah satu contoh data numerik adalah data sekolah yang meliputi data nilai Ujian Nasional (UN). Ujian Nasional dilaksanakan oleh Pemerintah untuk upaya peningkatan mutu pendidikan nasional. Selain itu, Ujian Nasional digunakan sebagai pertimbangan seleksi masuk jenjang pendidikan selanjutnya. Setiap tahunnya pemerintah selalu berupaya meningkatkan mutu pendidikan di setiap sekolah dengan melakukan pemetaan sekolah-sekolah yang masih membutuhkan perhatian khusus dalam
1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 2
meningkatkan mutu pendidikan dan melakukan pengawasan terhadap sekolahsekolah (http://un.kemdikbud.go.id/). Maka dari itu Ujian Nasional merupakan hal penting yang harus dilaksanakan demi terciptanya pendidikan yang bermutu . Sesuai dengan konsep clustering yang membagi set data besar ke dalam kelompok-kelompok maka dapat dilakukan pengelompokan Sekolah Menengah Atas di Provinsi Daerah Istimewa Yogyakarta berdasarkan Ujian Nasional menjadi beberapa kelompok untuk membantu penugasan pengawas sekolah untuk mendampingi sekolah sesuai dengan peraturan Mentri Pendidikan dan Kebudayaan no 143 tahun 2014 tentang petunjuk teknis pelaksanaan jabatan fungsional pengawas sekolah dan angka kreditnya di mana satu pengawas untuk jenjang pendidikan SMA mengawasi minimal 7 sekolah . Berdasarkan hal di atas, maka penulis tertarik untuk membuat sistem pengelompokan data Sekolah Menengah Atas di Provinsi DIY berdasarkan nilai Ujian Nasional (UN) menggunakan algoritma Agglomerative Hierarchical Clustering (AHC) untuk mengelompokan Sekolah Menengah Atas di Provinsi DIY menggunakan algoritma Agglomerative Hierarchical Clustering (AHC).
1.2
RUMUSAN MASALAH Berdasarkan Latar Belakang yang ada dapat dirumuskan masalah yaitu : 1.
Apakah algoritma Agglomerative Hierarchical Clustering (AHC) dapat dipergunakan untuk mengelompokan Sekolah Menengah Atas di provinsi DIY berdasarkan nilai Ujian Nasional?
2.
Bagaimana hasil evaluasi clustering dari pengelompokan yang dihasilkan menggunakan Silhouette Index (SI)?
3.
Apakah hasil pengelompokan SMA di Provinsi DIY dengan algoritma Agglomerative Hierarchical Clustering (AHC) dapat dipergunakan untuk membantu menentukan jumlah pengawas sekolah sesuai dengan peraturan Mentri Pendidikan dan Kebudayaan?
1.3
TUJUAN PENELITIAN
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 3
Tujuan dari penelitian ini adalah membangun sistem untuk mengelompokan Sekolah Menengah Atas di Provinsi Daerah Istimewa Yogyakarta berdasarkan nilai Ujian Nasional menggunakan Agglomerative Hierarchical Clustering (AHC).
1.4
BATASAN MASALAH Batasan masalah dalam penelitian ini adalah : 1
Metode yang digunakan adalah metode clustering algoritma Agglomerative Hierarchical Clustering (AHC).
2
Aplikasi
dibuat
berbasis
desktop
dan
menggunakan
bahasa
pemrograman Java. 3
Set data yang digunakan adalah data nilai Ujian Nasional (UN) di Provinsi Daerah Istimewa Yogyakarta pada tahun 2015.
1.5
MANFAAT PENELITIAN Manfaat yang didapat dari penelitian ini adalah : 1
Memberikan
gambaran
implementasi
algoritma
Agglomerative
Hierarchical Clustering (AHC) dalam mengelompokan Sekolah Menengah Atas berdasarkan nilai Ujian Nasional. 2
Memberikan referensi bagi penelitian yang berkaitan dengan pengelompokan sekolah.
3
Memberikan masukan untuk Dinas Pendidikan dalam pengambilan kebijakan perbaikan mutu pendidikan Sekolah Menengah Atas di Provinsi Daerah Istimewa Yogyakarta.
1.6
SISTEMATIKA PENULISAN
Sistematika Penulisan dibagi menjadi beberapa bab, yaitu : 1.
BAB I : PENDAHULUAN Pendahuluan berisi tentang latar belakang, rumusan masalah, tujuan penelitian, batasan masalah, manfaat penelitian, dan sistematika penulisan tugas akhir
2.
BAB II : LANDASAN TEORI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 4
Landasan Teori berisi tentang teori yang terkait dengan perancangan dan pembuatan sistem.
3.
BAB III. METODOLOGI PENELITIAN Metodologi penelitian ini berisi penjelasan gambaran umum penelitian, data, spesifikasi alat, dan tahap-tahap penelitian.
4.
BAB IV : PEMROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK PENAMBANGAN DATA Pemrosesan
awal
dan
perancangan
perangkat
lunak
penambangan data ini berisi pemrosesan awal dalam proses Knowledge Discovery in Database (KDD) yaitu pembersihan data, integrasi data, seleksi data, dan transformasi data. Pada bab ini juga berisi perancangan perangkat lunak yang terdiri dari perancangan umum, diagram use case, diagram aktivitas, diagram sekuen, diagram kelas analisis, diagram kelas desain, algoritma per method, struktur data, dan perancangan antarmuka.
5.
BAB V : IMPLEMENTASI DAN EVALUASI HASIL Implementasi dan evaluasi hasil ini berisi implementasi rancangan perangkat lunak dan evaluasi hasil yang terdiri dari pengujian perangkat lunak (black box), pengujian perbandingan perhitungan manual dengan hasil sistem, pengujian perbandingan hasil sistem dengan sistem lain (Orange) dan kelebihan dan kekurangan sistem.
6.
BAB VI : PENUTUP Penutup berisi tentang simpulan umum yang diperoleh dari pembuatan sistem serta rancangan pengembangan sistem ke depan.
LAMPIRAN
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB II LANDASAN TEORI 2.1. PENAMBANGAN DATA 2.1.1.
Pengertian Penambangan Data Penambangan data adalah kegiatan yang meliputi pengumpulan dan pemakaian data historis untuk menemukan keteraturan, pola, atau hubungan dalam set data berukuran besar. Keluaran dari data mining ini bisa dipakai untuk memperbaiki pengambilan keputusan di masa depan (Santosa, 2007).
2.1.2.
Fungsi Penambangan Data Fungsi penambangan data digunakan untuk menentukan macammacam pola yang dapat ditemukan dalam tugas-tugas penambangan data (Han dkk, 2006). Tugas-tugas yang berkaitan dengan penambangan data dibagi menjadi empat kelompok, yaitu : a.
Model Prediksi (Prediction Modelling) Model prediksi merupakan pembuatan sebuah model yang dapat melakukan pemetaan dari setiap himpunan variabel ke setiap targetnya,
kemudian
menggunakan
model
tersebut
untuk
memberikan nilai target pada himpunan baru yang didapat. Ada 2 jenis model prediksi, yaitu klasifikasi dan regresi. Klasifikasi digunakan untuk variabel target diskret, sedangkan regresi digunakan untuk variabel target kontinu. b.
Analisis Cluster (Cluster Analysis) Analisis cluster merupakan pengelompokan data ke dalam sejumlah kelompok berdasarkan kesamaan karakteristik masing-masing data pada kelompok-kelompok yang ada. Data-data yang masuk dalam batas kesamaan dengan kelompoknya akan bergabung dalam kelompok tersebut, dan akan terpisah dalam kelompok yang berbeda jika keluar dari batas kesamaan kelompok tersebut.
c.
Analisis Asosiasi (Association Analysis) 5
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 6
Analisis asosiasi digunakan untuk menemukan pola yang menggambarkan kekuatan hubungan fitur dalam data. Pola yang ditemukan biasanya merepresentasikan bentuk aturan implikasi atau subset fitur. Tujuannya adalah untuk menemukan pola yang menarik dengan cara yang efisien. d.
Deteksi Anomali (Anomaly Detection) Deteksi anomali merupakan proses pengamatan sebuah data dari sejumlah data yang secara signifikan mempunyai karakteristik yang berbeda dari sisa data yang lain. Data-data yang karakteristiknya menyimpang (berbeda) dari data yang lain disebut sebagai outlier.
(Prasetyo, 2014)
2.1.3.
Knowledge Discovery in Database (KDD)
Gambar 2. 1 Tahapan Proses KDD (Han dkk, 2006)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 7
Tahapan Proses dalam penggunaan data mining yang merupakan proses Knowledge Discovery in Database (KDD) adalah : 1.
Pembersihan Data (Data Cleaning) Tahap ini merupakan tahap menghilangkan data yang tidak diperlukan dan data yang tidak konsisten.
2.
Integrasi Data (Data Integration) Tahap ini merupakan tahap menggabungkan data dari berbagai sumber.
3.
Seleksi Data (Data Selection) Tahap ini merupakan tahap untuk menganalisis data yang relevan yang diperoleh dari database.
4.
Transformasi Data (Data Transformation) Tahap ini merupakan proses dimana data diubah atau digabungkan sehingga menjadi tepat untuk dilakukan penambangan data.
5.
Penambangan Data (Data Mining) Tahap ini merupakan proses utama dimana metode cerdas diterapkan untuk mengekstrak pola data.
6.
Evaluasi Pola (Patern Evaluation) Tahap ini merupakan tahap untuk mengidentifikasi pola-pola yang sungguh-sungguh menarik yang mewakili pengetahuan berdasarkan beberapa langkah penting.
7.
Presentasi Pengetahuan (Knowledge Presentation) Tahap ini merupakan teknik visualisasi dan gambaran pengetahuan yang digunakan untuk memberikan pengetahuan hasil penambangan kepada pengguna.
2.2. Ujian Nasional (UN) Ujian Nasional (UN), sebagai pengganti Evaluasi Belajar Tahap Akhir (Ebtanas) merupakan salah satu proses pengukuran hasil belajar yang telah dilaksanakan diberbagai jenjang pendidikan, yakni Sekolah Dasar, Sekolah Menengah Pertama, dan Sekolah Menengah Atas.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 8
Adapun tujuan UN sebagai berikut : a)
Untuk memperoleh informasi tentang mutu hasil pendidikan secara nasional
b)
Mengukur pencapaian hasil belajar siswa baik sekolah/madrasah negri maupun swasta
c)
Memperoleh gambaran perbandingan mutu pendidikan pada sekolah madrasah, antar sekolah/madrasah, dan antar wilayah dari tahun ke tahun.
d)
Menjadi bahan penentuan kebijakan pembinaan sekolah/madrasah
e)
Sebagai bahan pertimbangan dalam memberikan Surat Tanda Tamat Belajar dan seleksi masuk ke jenjang pendidikan yang lebih tinggi. (Kartowagiran, 2008)
2.3
Analisis Cluster
2.3.1.
Konsep Clustering Clustering adalah proses mempartisi data–set menjadi beberapa sub-set
atau kelompok sedemikian rupa sehingga elemen-elemen dari suatu kelompok tertentu memiliki set properti yang dishare bersama , dengan tingkat similaritas yang tinggi dalam satu kelompok dan tingkat similaritas antar kelompok yang rendah (Hermawati & Astuti, 2009). Clustering dapat dibedakan menurut struktur cluster,keanggotaan data dalam cluster, dan kekompakan data dalam cluster. Menurut struktur, clustering terbagi menjadi dua yaitu hirarki dan partisi. Dalam pengelompokan berbasis hirarki, satu data tunggal bisa dianggap sebuah cluster, dua atau lebih cluster kecil dapat bergabung menjadi sebuah cluster besar, begitu seterusnya hingga semua data dapat bergabung menjadi sebuah cluster. Disisi lain, pengelompokan berbasis partisi membagi set data ke dalam sejumlah cluster yang tidak bertumpang-tindih antara satu cluster dengan cluster yang lain , artinya setiap data hanya menjadi anggota satu cluster saja. Metode yang termasuk ke dalam kategori clustering partisi adalah K-Means, DBSCAN, dan Self Organizing Map (SOM) (Prasetyo, 2014).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 9
Menurut keanggotaan data dalam cluster, clustering dapat dibagi menjadi dua, yaitu eksklusif dan tumpang-tindih. Dalam kategori eksklusif, sebuah data bisa dipastikan hanya menjadi anggota satu cluster dan tidak menjadi anggota di cluster yang lain. Metode clustering yang masuk kedalam kategori ini adalah K-Means, DBSCAN, dan SOM. Sementara yang termasuk kategori tumpang tindih adalah metode clustering yang membolehkan sebuah data menjadi anggota dilebih dari satu cluster, misalnya Fuzzy C-Means dan pengelompokan berbasis hirarki (Prasetyo, 2014). Sementara menurut kategori kekompakan, clustering terbagi menjadi dua, yaitu komplet dan parsial. Jika semua data bisa bergabung menjadi satu (dalam konteks partisi) maka bisa dikatakan semua data kompak menjadi satu cluster, tapi jika ada satu atau dua (sedikit) data yang tidak ikut bergabung dalam cluster mayoritas maka data tersebut dikatakan data yang mempunyai perilaku yang menyimpang. Data yang menyimpang ini dikenal dengan sebutan outlier, noise (Prasetyo, 2004). Isu yang juga penting dalam clustering adalah matrik yang digunakan untuk mengukur ketidakmiripan data yang dikelompokkan. Penggunaan matrik yang berbeda dapat memberikan hasil yang berbeda tergantung kasus yang diselesaikan. Matrik yang paling banyak digunakan adalah Euclidean. Secara geometris metrik ini memberikan jarak terpendek antara dua data. Selain Euclidian, ada pula pengukuran jarak dengan menggunakan manhattan. Pengukuran jarak dengan menggunakan manhattan memberikan jarak sesungguhnya antara dua data. Formula manhattan yaitu : D1(x,y)=||x-y||1=∑𝒓𝒊=𝟏 ||𝒙𝒊 − 𝒚𝒊 || ...................................(2.1) di mana : 𝑖
= indeks data
𝑥𝑖
= nilai fitur ke-i dari x.
𝑦𝑖
= nilai fitur ke-i dari y.
r
= jumlah fitur dalam suatu data.
(Prasetyo, 2004)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 10
2.3.2.
Silhouette Coefficient Silhouette Coefficient adalah metode yang digunakan untuk memvalidasi
baik sebuah cluster yang menggabungkan nilai kohesi dan separasi. Silhouette Coefficient (SC) dapat digunakan untuk memvalidasi baik sebuah data, cluster tunggal (satu cluster dari sejumlah cluster), atau bahkan keseluruhan cluster. Untuk menghitung nilai SC, terlebih dahulu menghitung nilai Silhouette Index (SI) dari sebuah data ke-i. Perhitungan nilai SI terdapat 2 komponen yaitu ai dan bi. ai adalah rata-rata jarak data ke-i terhadap semua data lainnya dalam satu cluster, sedangkan bi didapatkan dengan menghitung rata-rata jarak data ke-i terhadap semua data dari cluster yang lain yang tidak dalam satu cluster dengan data ke-i, kemudian diambil yang terkecil (Prasetyo, 2014). 𝑗
Berikut formula untuk menghitung 𝑎𝑖 : 𝑗
𝑎𝑖 = 𝑚
1
𝑗 −1
𝑚
∑𝑟=1𝑗 𝑑(𝑥𝑖𝑗 , 𝑥𝑟𝑗 )
........................................(2.2)
𝑟≠𝑖
di mana: i
: indeks data
j
: cluster
x
: data
𝑗
𝑗
𝑑(𝑥𝑖 , 𝑥𝑟 )
: jarak data ke-i dengan data ke-r dalam satu cluster j
𝑚𝑗
: jumlah data dalam cluster ke-j
𝑗
Berikut formula untuk menghitung 𝑏𝑖 : 𝑗
𝑚𝑖𝑛
1
𝑚
𝑗
𝑏𝑖 = 𝑛=1,…,𝑘 {𝑚 } ∑𝑟=1𝑛 𝑑(𝑥𝑖 , 𝑥𝑟𝑛 ) 𝑛≠𝑗
𝑛
................................(2.3)
𝑟≠𝑖
di mana : mn
: banyak data dalam 1 cluster
d
: jarak data ke-i dengan data ke-r dalam satu cluster j
x
: data
𝑏
: nilai minimum dari rata-rata jarak data ke-i terhadap semua data dari cluster yang lain (tidak dalam satu cluster dengan data ke-i)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 11
Untuk mendapatkan Silhouette Index (SI) data ke-i menggunakan persamaan berikut : 𝑗
di mana
𝑗
𝑏𝑖 −𝑎𝑖
𝑗
𝑆𝐼𝑖 =
𝑗
𝑗
max{ 𝑎𝑖 ,𝑏𝑖 }
....................................(2.4)
:
a
: rata-rata jarak data ke-i terhadap semua data lainnya dalam satu cluster.
b
: nilai minimum dari rata-rata jarak data ke-i terhadap semua data dari cluster yang lain tidak dalam satu cluster dengan data ke-i. 𝑗
𝑗
max{ 𝑎𝑖 , 𝑏𝑖 }
: nilai maksimum dari nilai a dan b dari satu data
SI
: Silhouette Index
Nilai 𝑎𝑖 mengukur seberapa tidak mirip sebuah data dengan cluster yang diikutinya, nilai yang semakin kecil menandakan semakin tepatnya data tersebut berada dalam cluster tersebut. Nilai 𝑏𝑖 yang besar menandakan seberapa jeleknya data terhadap cluster yang lain. Nilai SI yang didapat dalam rentang (-1, +1). Nilai SI yang mendekati 1 menandakan bahwa data tersebut semakin tepat berada dalam cluster tersebut. Nilai SI negatif (𝑎𝑖 > 𝑏𝑖 ) menandakan bahwa data tersebut tidak tepat berada dalam cluster tersebut (karena lebih dekat ke cluster yang lain). SI bernilai 0 (atau mendekati 0) berarti data tersebut posisinya berada di perbatasan di antara dua cluster. Untuk nilai SI dari sebuah cluster didapatkan dengan menghitung rata-rata nilai SI semua data yang bergabung dalam cluster tersebut, seperti persamaan berikut : 1
𝑚
𝑗 𝑗 𝑆𝐼𝑗 = 𝑚 ∑𝑖=1 𝑆𝐼𝑖 𝑗
di mana
......................................(2.5)
: i
: indeks data
j
: cluster
mj
: banyaknya data dalam cluster j
𝑆𝐼𝑗
: Silhouette Index cluster
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 12
Sementara nilai SI global didapatkan dengan menghitung rata-rata nilai SI dari semua Cluster seperti pada persamaan berikut : 𝑆𝐼 =
1 𝑘
∑𝑘𝑗=1 𝑆𝐼𝑗
......................................(2.6)
di mana : j
: cluster
k
: jumlah cluster
𝑆𝐼𝑗
: Silhouette Index cluster
SI
: Silhouette Index global
Untuk memvalidasi seberapa baik sebuah cluster digunakan metode Silhouette Coefficient (SC). Nilai SC didapatkan dengan mencari nilai maksimum SI Global dari jumlah cluster 2 sampai jumlah cluster n-1, seperti persamaan berikut: 𝑆𝐶 = 𝑚𝑎𝑥𝑘
𝑆𝐼(𝑘)
..................................(2.7)
di mana : SC
: Silhouette Coefficient
SI
: Nilai Silhouette Global
k
: jumlah cluster
Kriteria subjektif pengukuran baik atau tidaknya pengelompokan berdasarkan Silhouette Coefficient (SC) menurut Kauffman dan Roesseeuw (1990) disajikan dalam Tabel 3.1
Tabel 3. 1 Kriteria subjetif pengukuran pengelompokan berdasarkan Silhouette Coefficient (SC) Nilai SC
Interpretasi SC
0,71 - 1,00
Struktur kuat
0,51 - 0,70
Struktur baik
0,26 - 0,50
Struktur Lemah
≤0,25
Struktur buruk
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 13
2.4
Algoritma Agglomerative Hierarchical Clustering (AHC) Agglomerative
Hierarchical
Clustering
(AHC)
adalah
metode
pengelompokan berbasis hirarki dengan pendekatan bottom up, yaitu proses pengelompokan dimulai dari masing-masing data sebagai satu buah cluster, kemudian secara rekursif
mencari cluster terdekat sebagai pasangan untuk
bergabung sebagai satu cluster yang lebih besar. (Prasetyo, 2014)
Algoritma Agglomerative Hierarchical Clustering (AHC) dapat dijelaskan sebagai berikut (Prasetyo, 2014) : 1.
Hitung matriks kedekatan berdasarkan jenis jarak yang digunakan
2.
Ulangi langkah 3 sampai 4, hingga hanya satu cluster yang tersisa
3.
Gabungkan dua cluster terdekat berdasarkan parameter kedekatan yang ditentukan
4.
Perbarui matriks kedekatan untuk merefleksikan kedekatan diantara clustercluster baru dan cluster yang tersisa
Pengelompokan berbasis hirarki sering ditampilkan dalam bentuk grafis menggunakan diagram yang mirip pohon (tree) yang disebut dengan dendogram. Dendogram merupakan diagram yang menampilkan hubungan cluster dan subcluster-nya dalam urutan yang mana cluster yang digabung (agglomerative view) atau dipecah (divisive view).
Ada tiga teknik kedekatan yang digunakan Agglomerative Hierarchical Clustering (AHC) yaitu: 1.
Single linkage (jarak terdekat) Single linkage memberikan hasil bila cluster-cluster digabungkan menurut jarak antara anggota-anggota yang paling dekat diantara dua cluster. Pengukuran jarak cluster dalam single linkage menggunakan formula jarak minimal. Teknik ini bagus untuk menangani set data yang distribusi datanya non-elips, tapi sangat sensitif terhadap noise dan outlier. d(U,V) = min {d(U,V)}; d(U,V) ϵ D .......................... (2.6) di mana:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 14
2.
d(U,V)
: jarak antar-cluster U dan V
min{d(U,V)}
: nilai minimum dari dari cluster U dan V
Complete linkage (jarak terjauh) Complete linkage terjadi bila kelompok-kelompok digabungkan menurut jarak antara anggota-anggota yang paling jauh di antara dua cluster. Pengukuran jarak cluster dalam complete linkage menggunakan formula jarak maksimal. Teknik ini kurang peka terhadap noise dan outlier, tetapi bagus untuk data yang mempunyai distribusi bentuk bulat. d(U,V) = max {d(U,V)}; d(U,V) ϵ D .......................... (2.7) Keterangan :
3.
d(U,V)
: jarak antar-cluster U dan V
max{d(U,V)}
: nilai maksimum dari dari cluster U dan V
Average linkage (jarak rerata) Average linkage digabungkan menurut jarak-rata-rata antara pasanganpasangan anggota masing-masing pada himpunan diantara dua cluster. Pengukuran jarak cluster dalam average linkage menggunakan formula jarak rerata. Teknik ini merupakan pendekatan yang mengambil pertengahan di antara single linkage dan complete linkage. d(U,V) = n
1 𝑢
x n𝑣
{d(U,V)}; d(U,V) ϵ D ........................ (2.8)
Keterangan : nu
: jumlah data pada cluster U
nv
: jumlah data pada cluster V
d(U,V)
: jarak antar-cluster U dan V
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB III METODOLOGI PENELITIAN 3.1. SUMBER DATA Data yang akan digunakan untuk penelitian ini berupa i berekstensi .xls yang diperoleh dari situs milik Kementrian Pendidikan dan kebudayaan yang dapat diakses melalui alamat http://un.kemdikbud.go.id/r-hasilun.html Data sumber merupakan data nilai Ujian Nasional SMA jurusan IPA dan IPS di Daerah Istimewa Yogyakarta tahun 2015. Pada penelitian ini data mata pelajaran yang digunakan adalah seluruh mata pelajaran yang digunakan untuk Ujian Nasional jurusan IPA (Bahasa Indonesia, Bahasa Inggris, Matematika, Fisika, Kimia, dan Biologi) dan IPS (Bahasa Indonesia, Bahasa Inggris, Matematika, Geografi, Sosiologi, dan Ekonomi).
3.2. SPESIFIKASI ALAT 3.2.1.
Hardware Perangkat keras yang digunakan untuk membuat aplikasi ini adalah Laptop
dengan spesifikasi prosessor Intel Core i3, RAM 2GB, HDD 300GB.
3.2.2.
Software Perangkat lunak yang digunakan dalam pembuatan aplikasi ini adalah
Sistem Operasi Windows 8.1 Enterprise 64-bit, JDK 1, 7, dan NetBeans 7.2 .
3.3. TAHAP-TAHAP PENELITIAN 3.3.1.
Studi Kasus Ujian Nasional Sekolah Menengah Atas bertujuan untuk mengukur dan
menilai pengetahuan dan kompetensi pada mata pelajaran tertentu. Selain itu hasil dari Ujian Nasional juga dapat digunakan untuk memetakan kualitas pendidikan di Indonesia. Untuk meningkatkan mutu pendidikan Sekolah Menengah Atas di Indonesia khususnya di Daerah Istimewa Yogyakarta maka dilakukanlah penelitian untuk memetakan kualitas pendidikan Sekolah Menengah Atas berdasarkan nilai
15
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 16
Ujian Nasional sehingga nantinya dapat dipergunakan untuk evaluasi dalam meningkatkan mutu pendidikan.
3.3.2.
Penelitian Pustaka Penulis melakukan penelitian ini dengan mencari literatur-literatur sebagai
referensi untuk mengetahui teori-teori yang berkaitan dengan penelitian. Literaturliteratur yang digunakan berasal dari buku, jurnal, dan karya ilmiah.
3.3.3.
Knowledge Discovery in Database (KDD) Penulis melakukan penelitian ini bertujuan untuk mengubah data mentah
menjadi suatu informasi yang lebih bermanfaat, dalam penelitian ini penulis menggunakan proses Knowledge Discovery in Database (KDD) di mana proses KDD tersebut terdiri dari pembersihan data, integrasi data, seleksi data, transformasi data, penambangan data, evaluasi pola, dan presentasi pengetahuan. (Han dkk, 2006) Pada penelitian ini, penulis melakukan pembersihan data dan integrasi data secara manual yaitu dengan menggunakan aplikasi spreadsheet. Tahap seleksi data, transformasi data, dan penambangan data dilakukan di dalam perangkat lunak yang dikembangkan oleh penulis sebagai alat bantu untuk mempermudah tahap-tahap tersebut. Pada tahap evaluasi pola dan presentasi pengetahuan, penulis melakukan evaluasi hasil dari perangkat lunak yang telah dibangun dan kemudian memberikan penjelasan atas hasil evaluasi agar informasi yang didapat dapat bermanfaat bagi pihak-pihak yang membutuhkan.
3.3.4.
Pengembangan Perangkat Lunak Metode yang digunakan penulis dalam mengembangakan sistem
penambangan data ini adalah metode waterfall. Waterfall adalah sebuah model pengembangan perangkat lunak yang dilakukan secara sekuensial, dimana satu tahap dilakukan setelah tahap sebelumnya selesai dilakukan. Metode ini merupakan metode yang paling umum digunakan oleh para pengembang perangkat lunak. Metode waterfall memiliki langkah-langkah sebagai berikut : 1.
Analisis
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 17
Langkah ini merupakan langkah untuk menganalisis kebutuhan dari sistem yang akan dibangun. 2.
Desain Langkah ini merupakan langkah untuk merancang sebuah perangkat lunak sesuai dengan kebutuhan dari sistem yang telah dianalisis. Pada langkah ini dilakukan perancangan antarmuka, struktur data, dan algoritma yang akan digunakan pada sistem ini.
3.
Implementasi Implementasi merupakan penerapan dari hasil desain ke dalam bahasa pemrograman yang nantinya akan menghasilkan sebuah perangkat lunak.
4.
Pengujian Perangkat Lunak Langkah terakhir yang perlu dilakukan adalah pengujian perangkat lunak yang telah selesai dibuat. Pengujian perangkat lunak yang dilakukan adalah dengan menggunakan pengujian blackbox, pengujian membandingkan hasil perhitungan manual dengan hasil dari sistem yang dibuat, dan pengujian membandingkan hasil dari sistem yang dibuat dengan sistem lain (Orange).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 18
BAB IV PEMROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK 4.1 PEMROSESAN AWAL 4.1.1 Pembersihan Data (Data Cleaning) Pembersihan data adalah proses membersihkan data dari data yang tidak diperlukan (noise) dan data yang tidak konsisten. Data yang memiliki noise seperti beberapa sekolah nilai ujian nasionalnya kosong maka sekolah tersebut akan dihapus dari tabel data.
4.1.2 Integrasi Data (Data Integration) Integrasi data adalah melakukan penggabungan data dari berbagai macam sumber. Dalam penelitian ini peneliti menggunakan 8 data yaitu data nilai Ujian Nasional tahun 2015 jurusan IPA dan data nilai Ujian Nasional tahun 2015 jurusan IPS. Data penelitian ini diperoleh dari satu sumber sehingga tidak dilakukan integrasi data.
4.1.3 Seleksi Data (Data Selection) Seleksi atribut merupakan tahap yang perlu dilakukan sebelum proses penambangan data. Pada data asli nilai Ujian Nasional terdapat 4 atribut tetap yaitu atribut KODE_SEKOLAH, NAMA_SEKOLAH, dan 6 mata pelajaran Ujian Nasional yang tertera pada tabel 4.1 dan tabel 4.2. Atribut yang dibuang adalah atribut KODE_SEKOLAH karena KODE_SEKOLAH tidak dibutuhkan informasinya dalam pengelompokan dan Atribut yang akan digunakan untuk proses penambangan data yaitu NAMA_SEKOLAH dan 6 mata pelajaran Ujian Nasional yang tertera pada tabel 4.3 dan tabel 4.4
Tabel 4.1 Atribut dari data asli nilai Ujian Nasional SMA jurusan IPA No.
Atribut
1
KODE_SEKOLAH
Keterangan Kode Sekolah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 19
2
NAMA_SEKOLAH
3
UN_BIN_15
4
UN_BING_15
5
UN_MTK_15
6
UN_FSK_15
7
UN_KMA_15
8
UN_BIO_15
Nama Sekolah Rata-rata nilai Ujian Nasional Bahasa Indonesia Rata-rata nilai Ujian Nasional Bahasa Inggris Rata-rata nilai Ujian Nasional Matematika Rata-rata nilai Ujian Nasional Fisika Rata-rata nilai Ujian Nasional Kimia Rata-rata nilai Ujian Nasional Biologi
Tabel 4. 2 Atribut dari data asli nilai Ujian Nasional SMA jurusan IPS No.
Atribut
Keterangan
1
KODE_SEKOLAH
Kode Sekolah
2
NAMA_SEKOLAH
Nama Sekolah Rata-rata nilai Ujian Nasional
3
UN_BIN_15
Bahasa Indonesia Rata-rata nilai Ujian Nasional
4
UN_BING_15
Bahasa Inggris Rata-rata nilai Ujian Nasional
5
UN_MTK_15
Matematika Rata-rata nilai Ujian Nasional
6
UN_EKO_15
Ekonomi Rata-rata nilai Ujian Nasional
7
UN_SOS_15
Sosiologi Rata-rata nilai Ujian Nasional
8
UN_GEO_15
Geografi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 20
Tabel 4. 3 Atribut terseleksi dari data nilai Ujian Nasional SMA jurusan IPA No. Atribut Keterangan 1
2
3
4
NAMA_SEKOLAH UN_BIN_15
UN_BING_15
UN_MTK_15
Nama Sekolah Rata-rata nilai Ujian Nasional Bahasa Indonesia Rata-rata nilai Ujian Nasional Bahasa Inggris Rata-rata nilai Ujian Nasional Matematika
5
UN_FSK_15
Rata-rata nilai Ujian Nasional Fisika
6
UN_KMA_15
Rata-rata nilai Ujian Nasional Kimia
7
UN_BIO_15
Rata-rata nilai Ujian Nasional Biologi
Tabel 4. 4 Atribut terseleksi dari data nilai Ujian Nasional SMA jurusan IPS No. Atribut Keterangan 1
NAMA_SEKOLAH
Nama Sekolah Rata-rata nilai Ujian Nasional Bahasa
2
UN_BIN_15
Indonesia Rata-rata nilai Ujian Nasional Bahasa
3
UN_BING_15
Inggris
4
UN_MTK_15
Rata-rata nilai Ujian Nasional Matematika
5
UN_EKO_15
Rata-rata nilai Ujian Nasional Ekonomi
6
UN_SOS_15
Rata-rata nilai Ujian Nasional Sosiologi
7
UN_GEO_15
Rata-rata nilai Ujian Nasional Geografi
4.1.4 Transformasi Data (Data Transformation) Proses transformasi data dilakukan pada data yang telah dipilih sebelumnya sehingga data tersebut dapat diproses ke penambangan data. Pada tahap ini dilakukan transformasi data dengan menyimpan data yang telah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 21
terseleksi
ke dalam bentuk Array sehingga data siap dilakukan proses
penambangan data.
4.2
PERANCANGAN PERANGKAT LUNAK
4.2.1 Perancangan Umum 4.2.1.1 Input Sistem Sistem
pengelompokan
dengan
menggunakan
algoritma
Agglomerative Hierarchical Clustering hanya dapat menerima masukan dari pengguna berupa file bertipe .xls yang dapat dipilih langsung oleh pengguna dari direktori penyimpanan di komputer. Sebelum melakukan proses pengelompokan, pengguna juga harus memilih atribut yang akan digunakan, memilih metode, dan mengisi jumlah kelompok yang ingin didapatkan pada texfield yang telah disediakan. Perancangan input sistem secara umum digambarkan pada Gambar 4.1.
Gambar 4. 1 Diagram Konteks
4.2.1.2 Proses Sistem Proses yang dilakukan oleh sistem yang akan dibangun terdiri dari beberapa tahapan untuk mendapatkan kelompok sekolah-sekolah. Tahapantahapan tersebut yaitu : 1.
Pemilihan atribut yang akan digunakan untuk pemrosesan pengelompokan data.
2.
Pemilihan metode pengelompokan yang akan digunakan.
3.
Menentukan jumlah kelompok yang akan dihasilkan oleh sistem.
4.
Proses pengelompokan untuk mendapatkan kelompok sekolahsekolah sesuai dengan jumlah kelompok yang dimasukan.
5.
Proses perhitungan Silhouette Index untuk mengukur validitas suatu cluster.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 22
Proses umum yang terjadi pada sistem digambarkan dalam diagram flowchart yang digambarkan pada Gambar 4.2 .
Gambar 4. 2 Flowchart
4.2.1.3 Output Sistem Sistem ini akan memberikan keluaran berupa sekolah-sekolah yang sudah dibagi menjadi beberapa kelompok sesuai dengan masukan jumlah kelompok yang telah dilakukan sebelumnya. Selain itu sistem juga akan menampilkan Silhouette Coefficient (SC) dari masing-masing kelompok dari proses pengelompokan untuk menghitung validitas dari suatu cluster.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 23
4.2.2 Diagram Use Case
Gambar 4. 3 Diagram Use Case
Diagram use case digunakan untuk menggambarkan interaksi antara sistem dengan pengguna. Pengguna dari sistem yang akan dibangun ini adalah sebanyak satu pengguna. Fungsi yang dapat dilakukan oleh pengguna sistem ini adalah pengguna dapat menginputkan data dalam bentuk file .xls. Fungsi selanjutnya yaitu pengguna dapat menyeleksi atribut yang akan digunakan dan kemudian melakukan proses clustering dengan memilih metode perhitungan jarak dan melihat hasil clustering . Fungsi yang terakhir yaitu pengguna dapat menyimpan hasil clustering.
4.2.2.1 Gambaran Umum Use Case Diagram use case pada Gambar 4.3 memiliki gambaran umum dari masing-masing use case. Gambaran dari masing-masing use case tersebut dijelaskan pada tabel berikut.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 24
Tabel 4. 5 Gambaran Umum Use Case Nama Use Case
Deskripsi Use case ini merupakan
Input berkas .xls
Aktor User
proses memasukan data file bertipe .xls Use case ini merupakan
User
proses pemilihan atribut dari Seleksi atribut
data terpilih yang akan digunakan untuk proses clustering data Use case ini merupakan
Proses clustering
User
proses clustering data dari data yang telah terpilih Use case ini merupakan
Simpan hasil
proses penyimpanan hasil
clustering
clustering dalam bentuk file
User
berekstensi .xls
4.2.2.2 Narasi Use Case Diagram use case pada Gambar 4.3 juga memiliki narasi yang merupakan penjelasan lebih lengkap dari masing-masing use case tersebut terlampir pada lampiran 1.
4.2.3 Diagram Aktivitas Terdapat empat diagram aktivitas yang merupakan aktivitas dari use case input berkas .xls, seleksi atribut, proses clustering, dan simpan hasil clustering. Diagram aktivitas sistem terlampir pada lampiran 2.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 25
4.2.4 Diagram Kelas Analisis Diagram kelas berguna untuk memperlihatkan hubungan antar kelas yang dapat membantu memvisualisasikan struktur kelas-kelas dari suatu sistem. Diagram kelas desain dapat lihat pada Gambar 4.7.
Gambar 4. 4 Diagram Kelas Analisis
4.2.5 Diagram Kelas Desain Diagram kelas desain terlampir pada lampiran 3.
4.2.6 Diagram Sekuen Terdapat empat diagram sekuen yaitu input berkas .xls, seleksi atribut, proses clustering, dan simpan hasil clustering. Diagram sekuen terlampir pada lampiran 4.
4.2.7 Perancangan Struktur Data Sistem pengelompokan data ini membutuhkan tempat penyimpanan yang tidak terlalu banyak dan tidak menghabiskan banyak waktu. Konsep penyimpanan data yang sesuai untuk sistem pengelompokan adalah dengan menggunakan konsep struktur data. Pada penelitian ini digunakan konsep struktur data array, ArrayList dan HashMap. 1.
Array Array adalah suatu tempat penyimpanan sementara statis di mana ukuran tempat penyimpanan harus diseklarasikan terlebih dahulu. Array terdiri dari sekumpulan data di mana data-data tersebut memiliki
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 26
tipe data yang sama. Setiap data disimpan dalam alamat memori yang berbeda-beda dan disebut dengan elemen array. Setiap elemen mempunyai nilai indek sesuai dengan urutannya. Melalui indek inilah kita dapat mengakses data-data tersebut. Pada
penelitian
ini
penulis
menggunakan
array
untuk
menyimpan data input dari file bertipe .xls.. Cara kerja array pada sistem ini adalah menyimpan nama sekolah dan keenam nilai mata pelajaran ujian nasional.
Gambar 4. 5 Perancangan Array
2. ArrayList Arraylist merupakan penyimpanan sementara dimana ukuran tempat penyimpanannya bersifat dinamis yaitu dapat berubah ukurannya sesuai dengan inputan data yang dimasukkan pengguna. Pada penelitian ini penulis menggunakan arraylist untuk membuat matriks jarak. Cara kerja array list pada sistem ini adalah yang pertama untuk menampung nilai jarak untuk satu sekolah dengan sekolah yang lainnya. Objek array list baru akan selalu dibuat untuk setiap sekolah .
Gambar 4. 6 Ilustrasi Konsep Arraylist
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 27
3. HashMap HashMap merupakan penyimpanan sementara yang memiliki key dan value dalam penyimpanannya dimana satu key dipetakan ke suatu nilai. Pada penelitian ini penulis menggunakan HashMap untuk menghitung nilai Silhouette Index pada suatu pengelompokan. Cara kerja HashMap pada sistem ini adalah mengeset size dari arraylist yang menampung nama sekolah sebagai key dan indeks data sekolah sebagai value. Sebagai contoh akan dijelaskan pada Tabel 4.6 berikut.
Tabel 4. 6 Perancangan HashMap Key
Value
0
[0]
1
[1 , 4]
2
[2 , 3]
4.2.8 Algoritma Setiap Method Rincian algoritma per method terlampir pada Lampiran 5
4.2.9 Perancangan Antarmuka Sistem Pengelompokan Sekolah menengah Atas di DIY berdasarkan nilai Ujian Nasional Menggunakan Agglomerative Hierarchical Clustering ini memiliki desain antarmuka yang digunakan untuk melakukan interaksi dengan pengguna. Antarmuka sistem terdiri dari 3 tampilan yang terdiri dari Halaman Beranda, Halaman AHC, dan Halaman Bantuan.
4.2.9.1 Perancangan Halaman Beranda
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 28
Gambar 4. 7 Perancangan Halaman Beranda
Halaman Beranda adalah halaman yang muncul pertama kali ketika aplikasi dijalankan. Halaman ini berisi judul aplikasi, tombol “AHC”, tombol “BANTUAN”, dan identitas pembuat aplikasi.
4.2.9.2 Perancangan Halaman AHC
Gambar 4. 8 Perancangan Halaman AHC
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 29
Halaman Agglomerative Hierarchical Clustering merupakan halaman yang ditampilkan ketika pengguna menekan tombol “AHC” pada halaman awal. Halaman ini berfungsi untuk memasukkan data, memilih atribut yang akan digunakan, memasukkan jumlah cluster, dan mengcluster data, melihat hasil cluster, dan menyimpan hasil cluster.
4.2.9.3 Perancangan Halaman Bantuan
Gambar 4. 9 Perancangan Halaman Bantuan
Halaman Bantuan ini ditampilkan saat pengguna menekan tombol “BANTUAN” pada Halaman Beranda. Jika ingin kembali ke halaman beranda, pengguna dapat menekan tombol “BERANDA”, dan jika ingin kembali ke halaman AHC, pengguna dapat menekan tombol “AHC”. Halaman Bantuan ini berisi informasi tentang aplikasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB V IMPLEMENTASI DAN EVALUASI HASIL 5.1
IMPLEMENTASI RANCANGAN PERANGKAT LUNAK Perangkat lunak pengelompokan data ini memiliki 4 kelas yang terdiri dari
satu kelas control dan tiga kelas view; 5.1.1 Implementasi Kelas View Berikut ini adalah tabel yang berisikan daftar kelas yang ada pada package view. Pada tabel tersebut disertakan pula nama file fisik dan file executable. Tabel 5. 1 Implementasi kelas view No.
Nama File
Nama Kelas
Nama File Fisik
1
View_Beranda
View_Beranda.java
View_Beranda.class
Gambar 5.1
2
View_AHC
View_AHC.java
View_AHC.class
Gambar 5.2
3
view_Bantuan
view_Bantuan.java
view_Bantuan.class
Gambar 5.3
Executable
Gambar 5. 1 Interface View_Beranda
30
Interface
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 31
Gambar 5. 2 Interface View_AHC
Gambar 5. 3 Interface View_Bantuan
5.1.2 Implementasi Kelas Kontrol Berikut ini adalah tabel yang berisikan daftar kelas yang ada pada package control. Pada tabel tersebut disertakan pula nama file fisik dan file executable.
Tabel 5. 2 Implementasi kelas Controler No. 1
Nama Kelas
Nama File Fisik
Nama File Executable
Control_Clustering
Control_Clustering.java
Control_Clustering.class
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 32
5.2
EVALUASI HASIL
5.2.1 Pengujian Perangkat Lunak (Black Box) 5.2.1.1 Rencana Pengujian Black Box Rencana pengujian menggunaan black box akan dijelakan pada tabel berikut. Tabel 5. 3 Rencana Pengujian Black Box No.
Use Case
Butir Uji
Kasus Uji
Pengujian memasukkan data dari file bertipe 1
Input Data
UC-01
.xls Pengujian memasukkan data dari file selain
UC-02
bertipe .xls 2
Seleksi Atribut
3
Proses Clustering
Pengujian memilih atribut Pengujian melakukan proses pengelompokan
UC-03
UC-04
Pengujian menyimpan 4
Simpan hasil
hasil pengelompokan
Clustering
ke dalam file bertipe
UC-05
.xls
5.2.1.2 Prosedur Pengujian Black Box dan Kasus Uji Setelah menyusun rencana pengujian pada tabel 5.3 maka dilakukan prosedur pengujian serta kasus uji pada Lampiran 2.
5.2.1.3 Evaluasi Pengujian Hasil Black Box Hasil pengujian black box pada Lampiran 1 menunjukkan bahwa perangkat lunak sudah dapat berjalan dengan baik sesuai dengan perancangan kasus uji yang telah dibuat. Hal ini dapat dilihat dari semua fungsi yang sudah dapat berjalan sesuai dengan yang diharapkan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 33
5.2.2 Pengujian Perbandingan Hasil Hitung Manual dengan Hasil Perangkat Lunak Salah sattu metode yang dilakukan oleh peneliti untuk menguji valid tidaknya alat uji yang dibuat , maka peneliti melakukan perbandingan hasil antara alat uji yang dibuat dengan perhitungan manual. Pengujian ini menggunakan dataset Ujian Nasional jurusan IPA tahun 2015 sejumlah 10 data dengan atribut NAMA SEKOLAH
UN_BIN_15,
UN
BING_15,
UN_MTK_15,
UN_FSK_15,
UN_KMA_15, UN_BIO_15. Dataset yang digunakan dapat dilihat pada tabel 5.4.
Tabel 5. 4 Dataset Pengujian
NAMA_SEKOLAH SMA NEGERI 1 YOGYAKARTA SMA NEGERI 3 YOGYAKARTA SMA NEGERI 2 YOGYAKARTA SMA NEGERI 9 YOGYAKARTA SMA NEGERI 8 YOGYAKARTA SMA NEGERI 5 YOGYAKARTA SMA NEGERI 6 YOGYAKARTA SMA NEGERI 7 YOGYAKARTA SMA STELLA DUCE 2 YOGYAKARTA SMA NEGERI 4 YOGYAKARTA
UN_BIN _15
UN_BI NG_15
UN_ MTK _15
88,2
79,04
74,23
84,04
81,5
80,94
87,96
79,96
77,59
85,01
84,5
81,77
87,62
77,63
69,63
78,79
78,14
75,59
87,22
77,3
63,93
74,6
74,91
74,07
86,99
78,23
73,34
81,96
79,5
76,18
86,67
75,23
70,28
77,02
77,61
75,78
86,59
75,92
61,42
75,93
74,1
76,14
86,45
72,17
65,31
68,53
70,62
70,25
85
66,93
48,82
50,13
60,54
60
84,97
74,32
53,6
70,91
62,09
75,52
UN_FS UN_K K_15 MA_15
UN_B IO_1 5
5.2.2.1 Perhitungan Manual Pengujian perhitungan manual menggunakan dataset Ujian Nasional SMA jurusan IPA di DIY tahun 2015 sejumlah 10 data, Proses perhitungan manual dilakukan dengan menggunakan aplikasi Microsoft Excel dengan hasil
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 34
pengelompokan 3 kelompok. Proses perhitungan manual beserta dengan hasilnya dapat dilihat pada Lampiran 6.
5.2.2.2 Perhitungan Perangkat Lunak Pengujian perhitungan perangkat lunak menggunakan dataset Ujian Nasional SMA jurusan IPA di DIY tahun 2015 sejumlah 10 data, Proses perhitungan perangkat lunak ini dilakukan dengan menggunakan perangkat lunak yang telah dibuat dengan menggunakan metode single linkage, complete linkage, dan average linkage.. Dalam perhitungan pengelompokan ini, perangkat lunak akan menghasilkan 3 kelompok. Hasil dari perhitungan perangkat lunak dapat dilihat pada Gambar 5.4, Gambar 5.5, dan Gambar 5.6 berikut ini.
Gambar 5. 4 Hasil Penambangan Data Metode Single linkage Menggunakan Perangkat Lunak
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 35
Gambar 5. 5 Hasil Penambangan Data Metode Complete linkage Menggunakan Perangkat Lunak
Gambar 5. 6 Hasil Penambangan Data Metode Average linkage Menggunakan Perangkat Lunak
5.2.2.3 Evaluasi Pengujian Perbandingan Hitung Manual dengan Hasil Perangkat Lunak Hasil pengelompokan dengan perhitungan manual dan perhitungan dengan perangkat lunak memiliki hasil yang sama, maka dapat disimpulkan bahwa
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 36
perangkat lunak yang dibuat sudah berjalan dengan baik dan sesuai dengan yang diharapkan.
5.2.3 Pengujian Perbandingan Hasil Perangkat Lunak dengan Hasil Perangkat Lunak Lainnya (Orange) 5.2.3.1 Perhitungan Perangkat Lunak Pengujian perhitungan perangkat lunak menggunakan dataset Ujian Nasional SMA jurusan IPA di DIY tahun 2015 sejumlah 10 data, Proses perhitungan perangkat lunak ini dilakukan dengan menggunakan perangkat lunak yang telah dibuat dengan menggunakan metode single linkage, complete linkage, dan average linkage.. Dalam perhitungan pengelompokan ini, perangkat lunak akan menghasilkan 3 kelompok. Hasil dari perhitungan perangkat lunak dapat dilihat pada Gambar 5.4, Gambar 5.5, dan Gambar 5.6.
5.2.3.2 Perhitungan Perangkat Lunak Lainnya (Orange) Orange merupakan sebuah aplikasi penambangan data yang dapat memberikan hasil terpercaya. Peneliti menggunakan aplikasi Orange ini untuk membandingkan perhitungan perangkat lunak yang dibuat untuk mengetahui hasil yang diperoleh dari perangkat lunak yang dibuat memliki hasil yang sama atau tidak. Pengujian perhitungan perangkat lunak menggunakan dataset Ujian Nasional SMA jurusan IPA di DIY tahun 2015 sejumlah 10 data, Proses perhitungan perangkat lunak ini dilakukan dengan menggunakan aplikasi Orange dengan menggunakan metode single linkage, complete linkage, dan average linkage.. Dalam perhitungan pengelompokan ini, aplikasi Orange akan menghasilkan 3 kelompok. Hasil dari perhitungan aplikasi Orange dapat dilihat pada Gambar 5.7, Gambar 5.8, dan Gambar 5.9.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 37
Gambar 5. 7 Hasil Perhitungan Metode Single linkage Menggunakan Aplikasi Orange
Gambar 5. 8 Hasil Perhitungan Metode Complete linkage Menggunakan Aplikasi Orange
Gambar 5. 9 Hasil Perhitungan Metode Average linkage Menggunakan Aplikasi Orange
5.2.3.3 Evaluasi Pengujian Perbandingan Perhitungan Hasil Perangkat Lunak dengan Perangkat Lunak Lainnya (Orange). Hasil pengelompokan dengan perhitungan hasil perangkat lunak dan perhitungan dengan perangkat lunak lainnya (Orange) memiliki hasil yang sama, maka dapat disimpulkan bahwa perangkat lunak yang dibuat sudah berjalan dengan baik dan sesuai dengan yang diharapkan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 38
5.2.4 Pengujian Perangkat Lunak dengan Menggunakan Dataset Pada pengujian perangkat lunak ini dilakukan pengujian menggunakan dataset nilai Ujian Nasional Sekolah Menengah Atas di Daerah Istimewa Yogyakarta jurusan IPA dan IPS tahun 2015 menggunakan metode single linkage, complete linkage, dan average linkage .
5.2.4.1 Evaluasi Hasil Clustering Evaluasi clustering yang digunakan oleh peneliti yaitu menggunakan Silhouette Coefficient (SC). Berdasarkan seluruh pengujian yang telah dilakukan terhadap dataset rata-rata nilai Ujian Nasional di provinsi DIY tahun 2015, didapatkan hasil evaluasi clustering dari setiap metode yang terbentuk. Hasil evaluasi clustering terlampir pada Tabel 5.5.
Tabel 5. 5 Perhitungan Hasil Silhouette Coefficient (SC) Jurusan IPA Jumlah Cluster (k) 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Single Linkage 0,662 0,739 0,707 0,766 0,795 0,817 0,836 0,850 0,865 0,869 0,828 0,841 0,851 0,857 0,864 0,871 0,875 0,881 0,849
SI Global Complete Linkage 0,543 0,486 0,611 0,476 0,440 0,406 0,360 0,346 0,314 0,382 0,360 0,342 0,343 0,319 0,328 0,318 0,315 0,313 0,316
Average Linkage 0,501 0,638 0,589 0,534 0,601 0,585 0,533 0,494 0,542 0,513 0,497 0,524 0,497 0,467 0,540 0,522 0,509 0,528 0,515
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 39
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61
0,854 0,859 0,865 0,870 0,856 0,861 0,892 0,895 0,874 0,851 0,843 0,847 0,851 0,855 0,833 0,822 0,826 0,852 0,853 0,832 0,834 0,814 0,808 0,811 0,832 0,835 0,853 0,856 0,842 0,847 0,837 0,832 0,831 0,834 0,837 0,855 0,869 0,872 0,861 0,863 0,853
0,302 0,293 0,329 0,314 0,296 0,290 0,278 0,279 0,308 0,302 0,352 0,378 0,395 0,384 0,400 0,392 0,438 0,474 0,491 0,504 0,500 0,491 0,489 0,484 0,478 0,508 0,510 0,521 0,517 0,514 0,523 0,512 0,504 0,512 0,504 0,504 0,499 0,493 0,494 0,509 0,508
0,578 0,587 0,598 0,643 0,664 0,645 0,657 0,697 0,703 0,690 0,671 0,664 0,655 0,646 0,655 0,666 0,657 0,645 0,637 0,632 0,624 0,615 0,623 0,616 0,624 0,615 0,630 0,621 0,611 0,604 0,605 0,614 0,625 0,618 0,624 0,631 0,629 0,633 0,626 0,623 0,643
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 40
62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102
0,844 0,843 0,845 0,847 0,849 0,854 0,856 0,860 0,855 0,870 0,870 0,874 0,873 0,873 0,875 0,870 0,861 0,862 0,862 0,864 0,867 0,869 0,879 0,880 0,874 0,875 0,877 0,868 0,871 0,866 0,869 0,870 0,880 0,888 0,888 0,890 0,888 0,890 0,893 0,894 0,889
0,504 0,514 0,524 0,523 0,513 0,533 0,540 0,534 0,552 0,568 0,585 0,579 0,584 0,590 0,593 0,609 0,603 0,620 0,626 0,642 0,658 0,662 0,676 0,689 0,683 0,687 0,692 0,703 0,715 0,726 0,739 0,749 0,761 0,754 0,764 0,775 0,768 0,780 0,782 0,792 0,803
0,638 0,655 0,674 0,677 0,677 0,668 0,673 0,676 0,679 0,683 0,680 0,673 0,690 0,707 0,721 0,734 0,739 0,742 0,744 0,736 0,749 0,742 0,754 0,765 0,766 0,779 0,790 0,801 0,804 0,807 0,801 0,794 0,805 0,805 0,817 0,828 0,820 0,820 0,821 0,823 0,832
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 41
103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 SC (Silhouette Coefficient)
0,896 0,891 0,890 0,886 0,888 0,896 0,903 0,910 0,919 0,923 0,931 0,939 0,938 0,940 0,940 0,939 0,947 0,954 0,949 0,942 0,937 0,943 0,944 0,951 0,957 0,959 0,958 0,959 0,958 0,964 0,968 0,968 0,973 0,978 0,983 0,990 0,995 0,995
0,803 0,811 0,814 0,822 0,831 0,840 0,840 0,843 0,852 0,859 0,860 0,859 0,859 0,861 0,870 0,877 0,884 0,891 0,897 0,905 0,907 0,911 0,918 0,926 0,933 0,940 0,945 0,952 0,959 0,959 0,965 0,968 0,973 0,978 0,983 0,990 0,995 0,995
0,840 0,850 0,844 0,844 0,854 0,861 0,864 0,866 0,866 0,859 0,867 0,874 0,874 0,881 0,882 0,889 0,896 0,903 0,908 0,915 0,923 0,924 0,924 0,932 0,939 0,940 0,945 0,952 0,959 0,959 0,965 0,968 0,973 0,978 0,983 0,990 0,995 0,995
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 42
Berdasarkan pengujian dataset rata-rata nilai Ujian Nasional SMA jurusan IPA dengan menggunakan metode single linkage, complete linkage, dan average linkage yang dapat dilihat pada Tabel 5.5 didapatkan nilai maksimum dari pengujian k=2 sampai dengan k=139 yaitu 0,995 yang disebut dengan Silhouette Coefficient (SC). Nilai SC sebesar 0,995 berada pada interval 0,71 – 1,00 yang berarti hasil pengelompokan memiliki struktur yang kuat. Pada Tabel 5.7 dapat dilihat SI Global bernilai 0,995 ketika k=139. Pengelompokan dengan membagi dataset menjadi 139 kelompok tidak perlu dilakukan karena tidak ada manfaatnya mengelompokan data ke dalam 139 kelompok. Menurut peraturan Mentri Pendidikan dan Kebudayaan no.143 tahun 2014 tentang petunjuk teknis pelaksanaan jabatan fungsional pengawas sekolah dan angka kreditnya, setiap pengawas pendidikan tingkat SMA mengawasi minimal 7 sekolah berarti jumlah cluster yang rasional untuk 140 sekolah berkisar antara 2 sampai 20 cluster. Oleh karena itu dalam analisis selanjutnya difokuskan pada nilai k antara 2 sampai 20.
Single Linkage 1,000
SI Global
0,800 0,600 0,400
0,200 0,000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Jumlah Cluster (k)
Gambar 5. 10 Grafik Perhitungan Nilai Silhouette Coefficient Terhadap Jumlah Cluster SMA Jurusan IPA Pada Metode Single linkage
Dari Gambar 5.10 dapat dilihat bahwa : 1. Ketika k=2 SI Global bernilai 0,662, ketika k=3 nilai SI Global naik menjadi 0,739, kemudian ketika k=4 nilai SI Global mengalami penurunan kembali menjadi 0,707. Nilai SI Global kembali naik ketika k=5 sampai dengan k=11, kemudian turun kembali ketika k=12 dengan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 43
nilai SI Global sebesar 0,828. Ketika k=13 nilai SI Global kembali naik sampai k=19 menjadi 0,881 dan ketika k=20 nilai SI Global mengalami penurunan dengan nilai 0,849. 2. Nilai maksimum SI Global ketika k =2 sampai k =20 adalah 0,881 pada k =19 yang menunjukkan bahwa pengelompokan yang dilakukan dengan menggunakan metode single linkage memiliki struktur pengelompokan yang kuat.
Pada metode single linkage, untuk semua k selalu ditemukan cluster dengan jumlah anggota 1.
Complete Linkage 0,700
SI Global
0,600 0,500 0,400 0,300 0,200 0,100 0,000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Jumlah Cluster (k)
Gambar 5. 11 Grafik Perhitungan Nilai Silhouette Coefficient Terhadap Jumlah Cluster SMA Jurusan IPA Pada Metode Complete linkage
Dari Gambar 5.11 dapat dilihat bahwa : 1. Ketika k=2 nilai SI Global sebesar 0,543, ketika k=3 nilai SI Global turun menjadi 0,486 dan kemudian naik kembali menjadi 0,611 ketika k=4. Nilai SI Global mengalami penurunan kembali ketika k=5 dengan nilai 0,476 sampai k=10 dengan nilai 0,314 dan naik kembali ketika k=11 dengan nilai 0,382. Ketika k=12 nilai SI Global turun kembali sampai k=13 menjadi 0,342, ketika k=14 SI Global kembali naik dengan nilai 0,343, ketika k=15 nilai SI Global turun menjadi 0,319, dan naik kembali ketika k=16 dengan nilai SI Global 0,328. Nilai SI Global kembali mengalami penurunan ketika
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 44
k=17 sampai dengan k=19 dan kemudian naik kembali ketika k=20 dengan nilai SI Global 0,316 2. Nilai maksimum SI Global ketika k =2 sampai k=20 adalah 0,611 pada k=4 yang menunjukkan bahwa pengelompokan yang dilakukan dengan menggunakan metode complete linkage memiliki struktur pengelompokan yang baik.
Pada metode complete linkage, untuk semua k >3 selalu ditemukan cluster dengan jumlah anggota 1.
SI Global
Average Linkage 0,700 0,600 0,500 0,400 0,300 0,200 0,100 0,000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Jumlah Cluster (k)
Gambar 5. 12 Grafik Perhitungan Nilai Silhouette Coefficient Terhadap Jumlah Cluster SMA Jurusan IPA Pada Metode Average linkage
Dari Gambar 5.12 dapat dilihat bahwa : 1. Ketika k=2 nilai SI Global sebesar 0,501, ketika k=3 nilai SI Global naik menjadi 0.638 dan kemudian mengalami penurunan ketika k=5 sampai k=6 menjadi 0,534. Ketika k=7 nilai SI Global kembali naik menjadi 0,601 dan turun kembali ketika k=585 dengan nilai 0,585 sampai k=9 dengan nilai 0,494. Nilai SI Global kembali naik ketika k=10 dengan nilai 0,542, kemudian turun kembali pada k=11 sampai k=12 dan naik kembali ketika k=13 dengan nilai SI Global 0542. Ketika k=14 sampai k=15 nilai SI Global mengalami penurunan kembali menjadi 0,467, ketika k=16 nilai SI Global kembali naik menjadi 0,540, dan ketika
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 45
k=17 sampai k=18 nilai SI Global kembali turun menjadi 0,509. Nilai SI Global kembali naik menjadi 0,528 ketika k=19 dan ketika k=20 kembali turun menjadi 0,515. 2. Nilai maksimum SI Global ketika k=2 sampai k=20 adalah 0,638 pada k =3 yang menunjukkan bahwa pengelompokan yang dilakukan dengan menggunakan
metode
average
linkage
memiliki
struktur
pengelompokan yang baik.
Pada metode average linkage, untuk k>2 selalu ditemukan cluster dengan jumlah anggota 1. Untuk semua metode baik single linkage, complete linkage, dan average linkage ketika k=4 cluster yang hanya beranggotakan 1 berisi data yang sama.
Tabel 5. 6 Perhitungan Hasil Silhouette Coefficient (SC) Jurusan IPS Jumlah Cluster (k) 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Single Linkage 0,534 0,644 0,695 0,754 0,763 0,790 0,732 0,695 0,791 0,765 0,785 0,794 0,804 0,816 0,826 0,837 0,844 0,851 0,857 0,846 0,853
SI Global Complete Linkage 0,501 0,527 0,459 0,415 0,430 0,445 0,415 0,474 0,421 0,386 0,366 0,339 0,317 0,301 0,295 0,287 0,284 0,278 0,265 0,264 0,261
Average Linkage 0,598 0,554 0,475 0,476 0,543 0,536 0,481 0,454 0,435 0,414 0,451 0,480 0,449 0,420 0,450 0,442 0,424 0,414 0,402 0,387 0,384
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 46
23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63
0,858 0,864 0,869 0,848 0,854 0,856 0,843 0,827 0,832 0,837 0,824 0,823 0,828 0,814 0,814 0,803 0,808 0,812 0,812 0,803 0,804 0,796 0,802 0,806 0,790 0,792 0,779 0,771 0,761 0,765 0,757 0,761 0,749 0,753 0,758 0,761 0,765 0,761 0,765 0,758 0,760
0,254 0,248 0,251 0,245 0,236 0,265 0,264 0,257 0,247 0,248 0,246 0,268 0,269 0,269 0,269 0,293 0,291 0,313 0,317 0,309 0,316 0,332 0,361 0,366 0,367 0,365 0,396 0,391 0,404 0,400 0,412 0,439 0,447 0,445 0,443 0,435 0,445 0,440 0,449 0,472 0,468
0,381 0,404 0,428 0,414 0,409 0,410 0,412 0,429 0,466 0,456 0,448 0,445 0,460 0,496 0,509 0,503 0,499 0,492 0,491 0,491 0,504 0,501 0,511 0,540 0,535 0,544 0,553 0,544 0,554 0,550 0,543 0,541 0,537 0,544 0,548 0,542 0,549 0,544 0,538 0,547 0,553
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 47
64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104
0,756 0,750 0,754 0,755 0,760 0,773 0,777 0,768 0,779 0,777 0,766 0,770 0,782 0,777 0,772 0,769 0,763 0,765 0,768 0,761 0,754 0,750 0,746 0,749 0,742 0,744 0,748 0,759 0,754 0,765 0,767 0,762 0,764 0,774 0,776 0,787 0,797 0,800 0,801 0,811 0,805
0,465 0,471 0,479 0,486 0,488 0,486 0,493 0,491 0,499 0,508 0,517 0,523 0,530 0,536 0,552 0,569 0,569 0,566 0,566 0,580 0,586 0,592 0,599 0,613 0,626 0,619 0,624 0,619 0,624 0,637 0,640 0,644 0,647 0,659 0,650 0,673 0,658 0,662 0,666 0,677 0,679
0,572 0,580 0,587 0,593 0,597 0,596 0,589 0,594 0,611 0,608 0,604 0,599 0,614 0,615 0,611 0,617 0,631 0,635 0,639 0,643 0,642 0,647 0,661 0,667 0,670 0,674 0,668 0,671 0,674 0,679 0,682 0,685 0,697 0,694 0,697 0,700 0,702 0,704 0,714 0,722 0,731
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 48
105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145
0,808 0,811 0,806 0,808 0,817 0,819 0,828 0,837 0,835 0,836 0,844 0,852 0,860 0,861 0,863 0,859 0,866 0,867 0,873 0,876 0,875 0,883 0,883 0,885 0,885 0,892 0,898 0,905 0,903 0,910 0,915 0,921 0,921 0,927 0,928 0,930 0,930 0,936 0,941 0,941 0,947
0,682 0,684 0,694 0,702 0,711 0,720 0,722 0,725 0,730 0,739 0,748 0,759 0,767 0,775 0,784 0,793 0,801 0,810 0,818 0,826 0,833 0,841 0,848 0,856 0,863 0,862 0,864 0,871 0,877 0,883 0,890 0,897 0,902 0,909 0,915 0,916 0,921 0,926 0,931 0,931 0,936
0,733 0,734 0,728 0,732 0,734 0,737 0,747 0,756 0,759 0,768 0,777 0,786 0,795 0,796 0,805 0,814 0,822 0,829 0,837 0,845 0,852 0,853 0,855 0,862 0,863 0,870 0,869 0,875 0,877 0,883 0,890 0,897 0,902 0,909 0,915 0,921 0,926 0,931 0,931 0,937 0,942
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 49
146 147 148 149 150 151 152 153 154 155 156 157 158
0,961 0,953 0,958 0,963 0,967 0,972 0,972 0,976 0,981 0,985 0,988 0,992 0,996
0,942 0,948 0,953 0,958 0,962 0,967 0,972 0,976 0,981 0,985 0,988 0,992 0,996
0,948 0,953 0,958 0,958 0,962 0,967 0,972 0,976 0,981 0,985 0,988 0,992 0,996
SC (Silhouette Coefficient)
0,996
0,996
0,996
Berdasarkan pengujian dataset rata-rata nilai Ujian Nasional SMA jurusan IPS dengan menggunakan metode single linkage, complete linkage, dan average linkage yang dapat dilihat pada Tabel 5.6 didapatkan nilai maksimum dari pengujian k=2 sampai dengan k=158 yaitu 0,996 yang disebut dengan Silhouette Coefficient (SC). Nilai SC sebesar 0,996 berada pada interval 0,71 – 1,00 yang berarti hasil pengelompokan memiliki struktur yang kuat. Pada Tabel 5.6 dapat dilihat SI Global bernilai 0,996 ketika cluster berjumlah 158. Pengelompokan dengan membagi dataset menjadi 158 kelompok tidak perlu dilakukan karena tidak ada manfaatnya jika membagi ke dalam 158 kelompok. Menurut peraturan Mentri Pendidikan dan Kebudayaan no.143 tahun 2014 tentang petunjuk teknis pelaksanaan jabatan fungsional pengawas sekolah dan angka kreditnya, setiap pengawas pendidikan tingkat SMA mengawasi minimal 7 sekolah berarti jumlah cluster yang rasional untuk 140 sekolah berkisar antara 2 sampai 20 cluster. Oleh karena itu dalam analisis selanjutnya difokuskan pada nilai k antara 2 sampai 23.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 50
Single Linkage 1,000
SI Global
0,800 0,600 0,400 0,200 0,000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Jumlah Cluster (k)
Gambar 5. 13 Grafik Perhitungan Nilai Silhouette Coefficient Terhadap Jumlah Cluster SMA Jurusan IPS Pada Metode Single linkage Dari Gambar 5.13 dapat dilihat bahwa : 1. Nlai SI Global perlahan naik ketika k=2 dengan nilai 0,534 sampai k=7 dengan nilai 0,790 dan ketika k=8 nilai SI Global kembali turun sampai k=9 menjadi 0,695. Ketika k=10 nilai SI Global naik menjadi 0,791 dan ketika k=11 kembali turun menjadi 0,765. Nilai SI Global ketika k=12 dengan nilai 0,785 perlahan naik sampai k=20 dengan nilai 0,857 kemudian turun kembali ketika k=21 dengan nilai 0,846. Ketika k=23 nilai SI Global kembali naik dengan nilai 0,858. 2. Nilai maksimum SI Global ketika k =2 sampai k =23 adalah 0,858 ketika k =23 yang menunjukkan bahwa pengelompokan yang dilakukan dengan menggunakan metode single linkage memiliki struktur pengelompokan yang kuat.
Pada metode single linkage, untuk semua k ditemukan cluster dengan jumlah anggota 1.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 51
Complete Linkage 0,600
SI Global
0,500 0,400 0,300 0,200 0,100 0,000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Jumlah Cluster (k)
Gambar 5. 14 Grafik Perhitungan Nilai Silhouette Coefficient Terhadap Jumlah Cluster SMA Jurusan IPS Pada Metode Complete linkage
Dari Gambar 5.14 dapat dilihat bahwa : 1. Ketika k=2 nilai SI Global = 0,501 dan terus bertambah sampai 0,527 ketika k=3, kemudian turun ketika k=4 sampai k=5 menjadi 0,415. Nilai SI Global menjadi naik ketika k=6 sampai k=7 menjadi 0,445, kemudian turun kembali menjadi 0,415 ketika k=8 dan naik kembali ketika k=9 dengan nilai 0,474. Nilai SI Global perlahan menurun ketika k=10 dengan nilai 0,421 sampai k=23 dengan nilai 0,254. 2. Nilai maksimum SI Global ketika k =2 sampai k=23 adalah 0,527 ketika k=3 yang menunjukkan bahwa pengelompokan yang dilakukan dengan menggunakan
metode
complete
linkage
memiliki
struktur
pengelompokan yang baik.
Pada metode complete linkage, untuk semua k >8 selalu ditemukan cluster dengan jumlah anggota 1.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 52
Average Linkage 0,700 0,600
SI Global
0,500 0,400 0,300 0,200 0,100 0,000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Jumlah Cluster (k)
Gambar 5. 15 Grafik Perhitungan Nilai Silhouette Coefficient Terhadap Jumlah Cluster SMA Jurusan IPS Pada Metode Average linkage
Dari Gambar 5.15 dapat dilihat bahwa : 1. Nilai SI Global ketika k=2 dengan nilai 0,598 perlahan menurun sampai k=4 dengan nilai 0,475 dan kembali naik ketika k=5 dengan nilai 0,476 sampai k=6 dengan nilai 0,430. Ketika k=7 nilai SI Global kembali menurun sampai k=11 menjadi 0,414 kemudian naik kembali ketika k=12 sampai k=13 menjadi 0,480. Nilai SI Global kembali menurun ketika k=14 sampai k=15 menjadi 0,420, kemudian naik kembali ketika k=16 dengan nilai SI Global 0,450. Nilai SI Global perlahan menurun ketika k=17 dengan nilai 0,442 sampai k=23 dengan nilai 0,381. 2. Nilai maksimum SI Global ketika k =2 sampai k=23 adalah 0,598 ketika k =2 yang menunjukkan bahwa pengelompokan yang dilakukan dengan menggunakan
metode
average
linkage
memiliki
struktur
pengelompokan yang baik.
Pada metode average linkage, untuk k>5 selalu ditemukan cluster dengan jumlah anggota 1. Untuk semua metode baik single linkage, complete linkage, dan average linkage ketika k=9 cluster yang hanya beranggotakan 1 berisi data yang sama.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 53
5.3
KELEBIHAN DAN KEKURANGAN PERANGKAT LUNAK
5.3.1 Kelebihan Perangkat Lunak Kelebihan
yang
dimiliki
oleh
perangkat
lunak
pengelompokan
menggunakan Agglomerative Hierarchical Clustering (AHC) ini adalah : 1. Sistem dapat menerima masukan file bertipe .xls. 2. Sistem dapat menerima masukan dengan jumlah kolom yang dinamis. 3. Sistem dapat meyeleksi atribut sehingga pengguna tidak perlu menghapus kolom secara manual. 4. Sistem menyediakan isian jumlah cluster yang ingin diperoleh. 5. Sistem dapat menampilkan hasil pengelompokan yang mudah dipahami oleh pengguna. 6. Sistem dapat menampilkan nilai Silhouette Index pada setiap kelompok hasil pengelompokan. 7. Sistem dapat menampilkan waktu lama proses pengelompokan data. 8. Sistem dapat menyimpan hasil pengelompokan data dengan hasil penyimpanan data berupa file bertipe .xls.
5.3.2 Kekurangan Perangkat Lunak Kekurangan
yang
dimiliki
oleh
perangkat
lunak
pengelompokan
menggunakan Agglomerative Hierarchical Clustering (AHC) ini adalah : 1. File masukan yang dapat diterima oleh sistem hanya sebatas file bertipe .xls. 2. Ketentuan seleksi atribut diharuskan baris pertama adalah nama sekolah. 3. Sistem hanya dapat melakukan seleksi kolom, tidak dapat melakukan seleksi baris. 4. Sistem hanya dapat menyimpan hasil pengelompokan data berupa file bertipe .xls.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB VI PENUTUP
6.1
SIMPULAN Hasil penelitian pengelompokan Sekolah Menengah Atas di Daerah Istimewa
Yogyakarta berdasarkan nilai Ujian Nasional menggunakan Agglomerative Hierarchical Clustering ini menghasilkan kesimpulan sebagai berikut : 1.
Agglomerative Hierarchical Clustering (AHC) dapat diterapkan untuk mengelompokkan Sekolah Menengah Atas di Daerah Istimewa Yogyakarta berdasarkan nilai Ujian Nasional tahun 2015.
2.
Berdasarkan peraturan Mentri Pendidikan dan Kebudayaan no.143 tahun 2014 tentang petunjuk teknis pelaksanaan jabatan fungsional pengawas sekolah dan angka kreditnya, maka dengan menggunakan asumsi k yang relevan untuk data set ini berkisar antara 2 sampai 20, maka disimpulkan : a.
Pengelompokan dengan menggunakan metode single linkage untuk jurusan IPA memiliki nilai SC sebesar 0,881 pada k=19 dan untuk jurusan IPS memiliki nilai SC sebesar 0,858 pada k=3.
b.
Pengelompokan dengan menggunakan metode complete linkage untuk jurusan IPA memiliki nilai SC sebesar 0,611 pada k=4 dan untuk jurusan IPS memiliki nilai SC sebesar 0,527 pada k=3.
c.
Pengelompokan dengan menggunakan metode average linkage untuk jurusan IPA memiliki nilai SC sebesar 0,638 pada k=3 dan untuk jurusan IPS memiliki nilai SC sebesar 0,598 pada k=2.
3.
Berdasarkan peraturan Mentri Pendidikan dan Kebudayaan no.143 tahun 2014 tentang petunjuk teknis pelaksanaan jabatan fungsional pengawas sekolah dan angka kreditnya di mana satu pengawas sekolah mengawasi minimal 7 sekolah, maka disimpulkan : a.
Pengelompokan dengan menggunakan metode single linkage kurang sesuai digunakan untuk menentukan jumlah pengawas sekolah dikarenakan dalam hasil pengelompokan dengan metode single linkage selalu ada kelompok yang hanya memiliki satu anggota.
54
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 55
b.
Dengan menggunakan metode complete linkage, jumlah k yang dapat digunakan untuk menentukan jumlah pengawas sekolah untuk jurusan IPA yaitu ketika k=2 dan k=3. Sedangkan untuk jurusan IPS ketika k=2, k=3, k=4, k=5, dan k=6.
c.
Dengan menggunakan metode average linkage, jumlah k yang dapat digunakan untuk menentukan jumlah pengawas sekolah untuk jurusan IPA yaitu ketika k=2. Sedangkan untuk jurusan IPS ketika k=2, k=3, dan k=4.
4.
Berdasarkan hasil evaluasi set data, pengelompokan dengan menggunakan metode single linkage memiliki struktur pengelompokan yang kuat sedangkan untuk metode complete linkage dan average linkage memiliki struktur pengelompokan yang baik
5.
Pada metode single linkage selalu ditemukan cluster dengan jumlah anggota 1 sehingga nilai SI Global menjadi cenderung tinggi.
6.2
SARAN Penelitian pengelompokan Sekolah Menengah Atas di Daerah Istimewa
Yogyakarta berdasarkan nilai Ujian Nasional menggunakan Agglomerative Hierarchical Clustering ini memberikan saran untuk pengembangan penelitian di masa mendatang, yaitu: 1.
Perangkat lunak dapat menerima masukan data dari file bertipe selain .xls.
2.
Perangkat lunak dapat menyimpan hasil pengelompokan data ke dalam file bertipe selain .xls.
3.
Perangkat lunak dapat melakukan seleksi baris.
4.
Perangkat lunak dapat menampilkan hasil pengelompokan data ke dalam tampilan yang lebih menarik (misanya grafik atau tabel).
5.
Penelitian menggunakan dataset yang berbeda. Misalnya dataset Ujian Nasional pada tahun yang berbeda atau dataset mata pelajaran yang sama untuk tahun yang berbeda.
6.
Penelitian kasus selain pembagian pengawas sekolah untuk pembinaan sekolah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR PUSTAKA
Han, Jiawei, Kamber, M., 2006. Data Mning Concepts and Techniques Second Edition. Elsevier:USA.
Han, Jiawei, Kamber, M., 2012. Data Mning Concepts and Techniques 3rd Edition. Elsevier:USA.
Hermawati, Fajar Astuti.2013. Data Mining. Andi. Yogyakarta.
Kartowagiran, Badrun.2008.Validasi dimensionalitas perngkat tes ujian akhir nasional SMP mata elajaran matematika 2003-2006.Yogyakarta
Kaufman, Leonard, Rousseeuw, Peter J. 1990.Finding Groups in Data.John Willey &Sons, Inc.Kanada
Prasetyo, Eko.2014. Data Mining Mengolah Data Menjadi Informasi Menggunakan Matlab.Andi.Yogyakarta.
Santosa, Budi.2007. DATA MINING : Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha Ilmu. Yogyakarta.
Anonim.2014.Peraturan Menteri Pendidikan dan Kebudayaan Nomor 143 Tahun 2014.Jakarta
Anonim.2014.Lampiran Peraturan Menteri Pendidikan dan Kebudayaan Nomor 143 Tahun 2014.Jakarta
56
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 57
LAMPIRAN
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 58
LAMPIRAN 1 NARASI USE CASE
1.
Narasi Use Case Input Berkas .xls Input Berkas .xls
Nama Use Case ID Use Case Aktor Deskripsi Kondisi Awal Kondisi Akhir Typical Course
2.
Input berkas .xls 001 User Use case ini merupakan proses memasukan data file bertipe .xls User Telah masuk ke sistem dan berada pada halaman AHC Data yang terpilih tampil dalam tabel data pada halaman AHC Aksi Aktor Reaksi Sistem Langkah 1 : Menekan Langkah 2 : Menampilkan tombol bergambar folder kotak dialog untuk untuk memilih file pemilihan file yang berada berekstensi .xls di salah satu direktori komputer. Langkah 3 : Memilih file Langkah 4 : Menampilkan yang akan dikelompokan data dari file yang terpilih datanya ke dalam tabel data yang ada pada halaman AHC
Narasi Use Case Seleksi Atribut
Nama Use Case ID Use Case Aktor Deskripsi Kondisi Awal Kondisi Akhir Typical Course
Seleksi Atribut Seleksi Atribut 002 User Use case ini merupakan proses pemilihan atribut dari data terpilih yang akan digunakan untuk proses clustering data Data dari file terpilih sudah tampil dalam tabel data pada halaman AHC Pemilihan data dan seleksi atribut yang akan dikelompokan selesai. Aksi Aktor Reaksi Sistem
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 59
Langkah 1: Memilih atribut yang akan digunakan untuk pengelompokan data Langkah 2 : Menekan tombol "Seleksi Atribut"
3.
Narasi Use Case Proses Clustering
Nama Use Case ID Use Case Aktor Deskripsi Kondisi Awal Kondisi Akhir Typical Course
Proses Clustering Proses Clustering 003 User Use case ini merupakan proses clustering data dari data yang telah terpilih Data telah diseleksi atribut User dapat melihat hasil pengelompokan Aksi Aktor Langkah 1 : Memilih metode pengelompokan. Langkah 2 : Mengisikan jumlah cluster yang diinginkan. Langkah 3: Menekan tombol "Proses".
4.
Langkah 3: Menampilkan data dari atribut yang terpilih dari tabel seleksi Atribut
Reaksi Sistem
Langkah 4 : Menampilkan hasil pengelompokan sesuai dengan metode pengelompokan yang dipilih dan jumlah cluster yang diinginkan.
Narasi Use Case Simpan Hasil Clustering
Nama Use Case ID Use Case Aktor Deskripsi Kondisi Awal Kondisi Akhir
Simpan Hasil Clustering Simpan Hasil Clustering 004 User Use case ini merupakan proses penyimpanan hasil clustering dalam bentuk file berekstensi .xls Hasil pengelompokan telah tampil pada text area. Hasil pengelompokan telah tersimpan dalam direktori pilihan di komputer.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 60
Typical Course
Aksi Aktor Langkah 1 : Menekan tombol "Simpan .xls"
Reaksi Sistem Langkah 2 : Menampilkan kotak dialog pemilihan direktori penyimpanan.
Langkah 3 : Memilih direktori penyimpanan hasil pengelompokan. Langkah 4 : Mengisikan nama file untuk penyimpanan Langkah 5: Menekan tombol "OK"
Langkah 6 : Menyimpan hasil pengelompokan ke dalam file dalam direktori yang terpilih. Langkah 7a : Menampilkan pemberitahuan bahwa file berhasil tersimpan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 61
LAMPIRAN 2 DIAGRAM AKTIVITAS
1. Diagram Aktivitas Input Berkas .xls
2. Diagram Aktivitas Seleksi Atribut
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 62
3. Diagram Aktivitas Proses Clustering
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 63
4. Diagram Aktivitas Simpan Hasil Clustering
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 64
LAMPIRAN 3 DIAGRAM KELAS DESAIN
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 65
LAMPIRAN 4 DIAGRAM SEKUEN
1. Diagram Sekuen Input Berkas .xls
2. Diagram Sekuen Seleksi Atribut
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 66
3. Diagram Sekuen Proses Clustering
4. Diagram Sekuen Simpan Hasil Clustering
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 67
LAMPIRAN 5 ALGORITMA UNTUK SETIAP METHOD DALAM CLASS
Rincian Algoritma untuk setiap method dalam Kelas Control_Clustering Nama Method
Fungsi
Algoritma Method
Method HitungJarak(Array
Menghitung
List
jarak antar
ing>> dataSekolah) data
1. Lakukan nested-loop dengan perulangan sebanyak data sekolah untuk menghitung jarak anatr sekolah. 2. Hitung jarak antar sekolah dengan menghitung selisih nilai antara sekolah satu dengan yang satu lainnya untuk semua mata pelajaran. 3. Setelah mendapatkan hasil selisih semua nilai mata pelajaran, jumlahkan hasil selisih semua mata pelajaran tersebut. 4. Hasil selisih tersebut merupakan nilai jarak antar sekolah.
Minimum2(ArrayL
Mencari nilai
1. Deklarasikan variabel min = baris
ist
minimum
pertama, kolom kedua dari hasil
ble>>
dari nilai
perhitungan jarak sebelumnya.
cariMinimum)
jarak
2. Lakukan nested-loop dengan perulangan sebanyak size hitung jarak. 3. Jika nilai pada indeks tidak sama dengan 0 dan jika nilai pada indeks lebih kecil dari nilai min,
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 68
maka nilai indeks tersebut merupakan nilai minimum. 4. Untuk mencari indeks dari nilai minimum, lakukan nested-loop dengan perulangan sebanyak size hitung jarak. 5. Jika nilai indeks sama dengan nilai min maka indeks i dan j disimpan ke dalam arraylist sebagai indeks dari nilai minimum. SingleLinkage(Arr
Mengelompo
ayList
kkan data
Double>>
dengan
arrayJarak,
menggunaka
matriks untuk menyimpan nilai
n metode
jarak dari indeks minimum dan
Single
maksimum.
int jumlahCluster, ArrayList
linkage
1. Membuat objek baru untuk indeks minimum dari method Minimum2. 2. Membuat objek baru untuk
3. Untuk menentukan indeks maksimum dan indeks minimum,
st<String>>
deklarasikan variabel maks =0 dan
arrTampungNamaS
min=1000000000.
ekolah, ArrayList> arrTampungindeks
4.
Lakuan perulangan sebanyak size objek indeks minimum. -
Jika nilai pada indeks minimum lebih besar dari
Sekolah)
maks, maka nilai pada indeks minimum tersebut merupakan nilai maks. -
Jika nilai pada indeks minimum lebih kecil dari min, maka nilai pada indeks tersebut merupakan nilai min.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 69
-
Buat variabel baru dengan nama array untuk diisikan nilai jarak pada indeks minimum dan maksimum.
-
Simpan array ke dalam objek matriks.
5. Hapus indeks maksimum pada array nilai jarak. 6. Membuat objek baru dengan nama arrayHasilGabung untuk menyimpan array hasil penggabungan indeks maksimum dan minimum. 7. Lakukan nested-loop untuk mencari nilai minimum dari matriks dengan perulangan sebanyak matriks.size(). -
Jika nilai matriks pada baris ke-2 kolom ke-1 lebih kecil atau sama dengan nilai matriks pada baris ke-1 kolom ke-1, maka nilai matriks baris ke-2 kolom ke-1 merupakan nilai minimum dan sebaliknya
-
simpan nilai minimum dari matriks tersebut ke dalam objek arrayHasilGabung
8. Deklarasikan objek baru arrayJarakBaru untuk menyimpan array nilai jarak yang baru. 9. Lakukan perulangan sebanyak arrayJarak.size()
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 70
-
Buat variabel abru dengan nama array.
-
Jika iterasi ==nilai min, maka array = arrayHasilGabung. Jika yang lainnya, maka array = arrayJarak.get(i).
-
Lakukan perulangan sebanyak array.size
Jika indeks == maks, maka hapus indeks tersebut. Jika indeks == min, maka ganti nilai pada indeks tersebut dengan nlai arrayHasilGabung.get(i).
10. Tambahkan array ke dalam arrayJarakBaru. 11. Deklarasi variabel iterasi = arrayJarakBaru.size(). 12. Panggil method single linkage selama iterasi tidak sama dengan jumlah cluster yang dimasukkan. CompleteLinkage(
Mengelompo
ArrayList
kkan data
minimum dari method
st>
dengan
Minimum2.
arrayJarak, int
menggunaka
jumlahCluster,
n metode
matriks untuk menyimpan nilai
ArrayList
Complete
jarak dari indeks minimum dan
st<String>>
linkage
maksimum.
arrTampungNamaS ekolah, ArrayList
1.
2.
3.
Membuat objek baru untuk indeks
Membuat objek baru untuk
Untuk menentukan indeks maksimum dan indeks minimum,
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 71
st>
deklarasikan variabel maks =0
arrTampungindeks
dan min=1000000000.
Sekolah)
4.
Lakuan perulangan sebanyak size objek indeks minimum. -
Jika nilai pada indeks minimum lebih besar dari maks, maka nilai pada indeks minimum tersebut merupakan nilai maks.
-
Jika nilai pada indeks minimum lebih kecil dari min, maka nilai pada indeks tersebut merupakan nilai min.
-
Buat variabel baru dengan nama array untuk diisikan nilai jarak pada indeks minimum dan maksimum.
-
Simpan array ke dalam objek matriks.
5.
Hapus indeks maksimum pada array nilai jarak.
6.
Membuat objek baru dengan nama arrayHasilGabung untuk menyimpan array hasil penggabungan indeks maksimum dan minimum.
7.
Lakukan nested-loop untuk mencari nilai maksimum dari matriks dengan perulangan sebanyak matriks.size(). -
Jika nilai matriks pada baris ke-2 kolom ke-1 ==0, maka
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 72
nilai matriks pada baris ke-2 kolom ke-1 = 0 dan sebaliknya. -
Jika nilai matriks pada baris ke-2 kolom ke-1 lebih besar atau sama dengan nilai matriks pada baris ke-1 kolom ke-1, maka nilai matriks baris ke-2 kolom ke1 merupakan nilai maksimum dan sebaliknya
-
simpan nilai maksimum dari matriks tersebut ke dalam objek arrayHasilGabung
8.
Deklarasikan objek baru arrayJarakBaru untuk menyimpan array nilai jarak yang baru.
9.
Lakukan perulangan sebanyak arrayJarak.size() -
Buat variabel baru dengan nama array.
-
Jika iterasi ==nilai min, maka array = arrayHasilGabung. Jika yang lainnya, maka array = arrayJarak.get(i).
-
Lakukan perulangan sebanyak array.size
Jika indeks == maks, maka hapus indeks tersebut. Jika indeks == min, maka ganti nilai pada indeks tersebut dengan nlai arrayHasilGabung.get(i).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 73
10. Tambahkan array ke dalam arrayJarakBaru. 11. Deklarasi variabel iterasi = arrayJarakBaru.size(). 12. Panggil method single linkage selama iterasi tidak sama dengan jumlah cluster yang dimasukkan. AverageLinkage(A
Mengelompo
rrayList
kkan data
minimum dari method
>
dengan
Minimum2.
arrayJarak, int
menggunaka
jumlahCluster,
n metode
matriks untuk menyimpan nilai
ArrayList
Average
jarak dari indeks minimum dan
st<String>>
linkage
maksimum.
arrTampungNamaS
1. Membuat objek baru untuk indeks
2.
3.
Membuat objek baru untuk
Untuk menentukan indeks
ekolah,
maksimum dan indeks minimum,
ArrayList
deklarasikan variabel maks =0
st>
dan min=1000000000.
arrTampungindeks Sekolah)
4.
Lakuan perulangan sebanyak size objek indeks minimum. -
Jika nilai pada indeks minimum lebih besar dari maks, maka nilai pada indeks minimum tersebut merupakan nilai maks.
-
Jika nilai pada indeks minimum lebih kecil dari min, maka nilai pada indeks tersebut merupakan nilai min.
-
Buat variabel baru dengan nama array untuk diisikan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 74
nilai jarak pada indeks minimum dan maksimum. -
Simpan array ke dalam objek matriks.
5.
Hapus indeks maksimum pada array nilai jarak.
6.
Membuat objek baru dengan nama arrayHasilGabung untuk menyimpan array hasil penggabungan indeks maksimum dan minimum.
7.
Deklarasikan variabel awal = arrTampungNamaSekolah.get(mi n).size(), akhir = arrTampungNamaSekolah.get(ma ks).size(), dan jumlahAnggota = awal+akhir.
8.
Lakukan nested-loop untuk mencari nilai rata-rata dari matriks dengan perulangan sebanyak matriks.size(). -
Jika nilai matriks pada baris ke-2 kolom ke-1 ==0, maka nilai matriks pada baris ke-2 kolom ke-1 = 0 dan sebaliknya.
-
Jika yang lainnya, maka (baris ke-2 kolom ke-1 * akhir)+( baris ke-1 kolom ke1 * awal) / jumlahAnggota.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 75
-
simpan nilai maksimum dari matriks tersebut ke dalam objek arrayHasilGabung
9.
Deklarasikan objek baru arrayJarakBaru untuk menyimpan array nilai jarak yang baru.
10. Lakukan perulangan sebanyak arrayJarak.size() -
Buat variabel baru dengan nama array.
-
Jika iterasi ==nilai min, maka array = arrayHasilGabung. Jika yang lainnya, maka array = arrayJarak.get(i).
-
Lakukan perulangan sebanyak array.size
Jika indeks == maks, maka hapus indeks tersebut. Jika indeks == min, maka ganti nilai pada indeks tersebut dengan nlai arrayHasilGabung.get(i).
11. Tambahkan array ke dalam arrayJarakBaru. 12. Deklarasi variabel iterasi = arrayJarakBaru.size(). 13. Panggil method single linkage selama iterasi tidak sama dengan jumlah cluster yang dimasukkan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 76
LAMPIRAN 5 PENGUJIAN BLACK BOX Identifikasi Use
Catatan Deskripsi
Prosedur Pengujian
Masukan
Keluaran yang Diharapkan
Hasil yang Didapat
Case
Pengemban gan
Pengujian UC-01
Proses
memasukkan data dari file bertipe .xls
1. Jalankan sistem
Data pada file
2. Pada halaman awal/
contoh 10 data.xls
beranda, tekan tombol
contoh 10 data.xls
ditampilkan pada
"AHC" yang terletak di
tabel data di
kanan atas
halaman AHC.
Data pada file contoh 10 data.xls ditampilkan pada tabel data di
Tidak diperbaiki
halaman AHC.
3. Pada Halaman AHC, Pengujian
tekan tombol pilih file
Muncul
memasukkan yang bergambar folder. UC-02
data dari file selain bertipe .xls
pemberitahuan
Muncul pemberitahuan
bahwa tipe file
bahwa tipe file yang
datanya akan digunakan
yang dipilih bukan
dipilih bukan .xls
5. Tekan tombol
.xls
4. Pilih file yang
"OPEN"
contoh 10 data.csv
Tidak diperbaiki
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 77
Pengujian UC-03
1. Tabel pada halaman
Atribut yang dipilih
Pada tabel data
AHC sudah berisi data
: NAMA
hanya muncul
2. Memilih atribut pada
SEKOLAH,
kolom NAMA
tabel atribut.
UN_BIN,
SEKOLAH,
UN_BING,
UN_BIN,
UN_MAT,UN_FIS,
UN_BING,
UN_KIM, UN_BIO
UN_MAT,UN_FIS
memilih atribut 3. Tekan tombol "SELEKSI ATRIBUT".
, UN_KIM,
Pada tabel data hanya muncul kolom NAMA SEKOLAH, UN_BIN, UN_BING,
Tidak diperbaiki
UN_MAT,UN_FIS, UN_KIM, UN_BIO
UN_BIO 1. Atribut yang akan
UC-04
digunakan untuk proses
Proses
Pengujian
pengelompokan sudah
pengelompokan
Proses pengelompokan
melakukan
dipilih.
berjalan. Hasil
berjalan. Hasil
pengelompokan
pengelompokan dan
dan analisis cluster
analisis cluster muncul
Lingkage, Complete
muncul pada text
pada text area.
linkage, atau Average
area.
proses
2. Memilih metode yang pengelompokan :
pengelompo- akan digunakan (Single kan
Metode
linkage).
Single linkage
Tidak diperbaiki
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 78
3. Memasukkan jumlah cluster. 4. Tekan tombol
Jumlah cluster : 3
"PROSES" 1. Proses Pengujian menyimpan hasil UC-05
pengelompokan sudah berhasil dilakukan. 2. Memilih penjurusan
File tersimpan pada Nama file : hasil
pengelompo- data yang diclustering kan ke
direktori C:/Users/TOSHIB
untuk menentukan
A/Documents/hasil
dalam file
header pada file excel.
.xls
bertipe .xls
3. Memilih direktori penyimpanan
Tipe file : .xls
File tersimpan pada direktori C:/Users/TOSHIBA/Do cuments/hasil.xls
Tidak diperbaiki
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 79
LAMPIRAN 6 PERHITUNGAN MANUAL
Contoh penerapan algoritma Agglomeratve Hierarchical Clustering (AHC) mengambil sample 10 data Ujian Nasional Sekolah Menengah Atas Jurusan IPA Tahun 2011 di Daerah Istimewa Yogyakarta. Proses pengelompokan dilakukan dengan Metode AHC menggunakan jarak Manhattan.
KODE _SEK OLAH 01-015 01-001 01-017 01-004 01-042 01-039 01-003 01-018
01-055 01-002
NAMA_ SEKOLAH SMA NEGERI 1 YOGYAKARTA SMA NEGERI 3 YOGYAKARTA SMA NEGERI 2 YOGYAKARTA SMA NEGERI 9 YOGYAKARTA SMA NEGERI 8 YOGYAKARTA SMA NEGERI 5 YOGYAKARTA SMA NEGERI 6 YOGYAKARTA SMA NEGERI 7 YOGYAKARTA SMA STELLA DUCE 2 YOGYAKARTA SMA NEGERI 4 YOGYAKARTA
UN_B IN_15
UN_B ING_ 15
UN_ MTK _15
UN_F SK_1 5
UN_ KMA _15
UN_B IO_1 5
88,2
79,04
74,23
84,04
81,5
80,94
87,96
79,96
77,59
85,01
84,5
81,77
87,62
77,63
69,63
78,79
78,14
75,59
87,22
77,3
63,93
74,6
74,91
74,07
86,99
78,23
73,34
81,96
79,5
76,18
86,67
75,23
70,28
77,02
77,61
75,78
86,59
75,92
61,42
75,93
74,1
76,14
86,45
72,17
65,31
68,53
70,62
70,25
85
66,93
48,82
50,13
60,54
60
84,97
74,32
53,6
70,91
62,09
75,52
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 80
Atribut a b c d e f g h i j
Keterangan SMA NEGERI 1 YOGYAKARTA SMA NEGERI 3 YOGYAKARTA SMA NEGERI 2 YOGYAKARTA SMA NEGERI 9 YOGYAKARTA SMA NEGERI 8 YOGYAKARTA SMA NEGERI 5 YOGYAKARTA SMA NEGERI 6 YOGYAKARTA SMA NEGERI 7 YOGYAKARTA SMA STELLA DUCE 2 YOGYAKARTA SMA NEGERI 4 YOGYAKARTA
Yang pertama dilakukan adalah menghitung jarak Manhattan pada semua pasangan dua data. Hasilnya seperti di bawah ini.
a a b c d e f g h i j
0 9,32 20,55 35,92 11,75 25,36 37,85 54,62 116,53 66,54
b 9,32 0 29,39 44,76 20,59 34,2 46,69 63,46 125,37 75,38
c 20,55 29,39 0 15,37 10,06 6,49 18,4 34,07 95,98 45,99
d e f 35,92 11,75 25,36 44,76 20,59 34,2 15,37 10,06 6,49 0 24,63 15,8 24,63 0 13,61 15,8 13,61 0 8,73 26,1 14,59 21,46 42,87 29,26 80,61 104,78 91,17 33,52 54,79 41,18
g 37,85 46,69 18,4 8,73 26,1 14,59 0 24,55 78,68 28,69
h i j 54,62 116,53 66,54 63,46 125,37 75,38 34,07 95,98 45,99 21,46 80,61 33,52 42,87 104,78 54,79 29,26 91,17 41,18 24,55 78,68 28,69 0 61,91 31,52 61,91 0 50,05 31,52 50,05 0
Single linkage Dengan memperlakukan setiap data sebagai cluster, selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(c , f)=6.49
a a b c d e
9,32 20,55 35,92 11,75
b c 9,32 20,55 29,39 29,39 44,76 15,37 20,59 10,06
d 35,92 44,76 15,37 24,63
e 11,75 20,59 10,06 24,63
f g h i 25,36 37,85 54,62 116,53 34,2 46,69 63,46 125,37 6,49 18,4 34,07 95,98 15,8 8,73 21,46 80,61 13,61 26,1 42,87 104,78
j 66,54 75,38 45,99 33,52 54,79
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 81
f g h i j
25,36 34,2 6,49 15,8 13,61 37,85 46,69 18,4 8,73 26,1 54,62 63,46 34,07 21,46 42,87 116,53 125,37 95,98 80,61 104,78 66,54 75,38 45,99 33,52 54,79
14,59 29,26 91,17 41,18
14,59 29,26 24,55 24,55 78,68 61,91 28,69 31,52
91,17 41,18 78,68 28,69 61,91 31,52 50,05 50,05
Terpilih cluster c dan f, maka cluster c dan f digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (c f) dengan cluster yang lain yang tersisa yaitu a,b,d,g,h,i, dan j dihitung kembali dengan metode single linkage. Jarak-jarak yang didapat adalah d(cf)a= min{dca, dfa}=min{20.55 , 25.36} = 20.55 d(cf)b= min{dcb, dfb}=min{29.39 , 34.2} = 29.39 d(cf)d= min{dcd, dfd}=min{15.37, 15.8} = 15.8 d(cf)e= min{dce, dfe}=min{10.06 , 13.61} = 10.06 d(cf)g= min{dcg, dfg}=min{18.4 , 14.59} = 14.59 d(cf)h= min{dch, dfh}=min{34.07 , 29.26} = 29.26 d(cf)i= min{dci, dfi}=min{95.98 , 91.17} = 91.17 d(cf)j= min{dcj, dfa}=min{45.99 , 41.18} = 41.18
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster c dan f dan menambahkan baris dan kolom untuk cluster (c , f), didapatkan matriks jarak yang baru : a a b 9,32 c,f 20,55 d 35,92 e 11,75 g 37,85 h 54,62 i 116,53 j 66,54
b c,f 9,32 20,55 29,39 29,39 44,76 15,37 20,59 10,06 46,69 14,59 63,46 29,26 125,37 91,17 75,38 41,18
d 35,92 44,76 15,37
e 11,75 20,59 10,06 24,63
24,63 8,73 26,1 21,46 42,87 80,61 104,78 33,52 54,79
g 37,85 46,69 14,59 8,73 26,1
h i 54,62 116,53 63,46 125,37 29,26 91,17 21,46 80,61 42,87 104,78 24,55 78,68 24,55 61,91 78,68 61,91 28,69 31,52 50,05
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(d,g)=8.73
j 66,54 75,38 41,18 33,52 54,79 28,69 31,52 50,05
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 82
a a b c,f d e g h i j
b c,f 9,32 20,55 29,39 29,39 44,76 15,37 20,59 10,06 46,69 14,59 63,46 29,26 125,37 91,17 75,38 41,18
9,32 20,55 35,92 11,75 37,85 54,62 116,53 66,54
d 35,92 44,76 15,37
e 11,75 20,59 10,06 24,63
24,63 8,73 26,1 21,46 42,87 80,61 104,78 33,52 54,79
g 37,85 46,69 14,59 8,73 26,1
h i j 54,62 116,53 66,54 63,46 125,37 75,38 29,26 91,17 41,18 21,46 80,61 33,52 42,87 104,78 54,79 24,55 78,68 28,69 24,55 61,91 31,52 78,68 61,91 50,05 28,69 31,52 50,05
Terpilih cluster d dan g, maka cluster d dan g digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (d g) dengan cluster yang lain yang tersisa yaitu a,b,cf,e,h,i, dan j dihitung kembali dengan metode single linkage. Jarak-jarak yang didapat adalah d(dg)a= min{dda, dga}=min{35.92 , 37.85} = 35.92 d(dg)b= min{ddb, dgb}=min{44.76 , 46.69} = 44.76 d(dg)(cf)= min{dd(cf), dg(cf)}=min{15.37 , 14.59} = 14.59 d(dg)e= min{dde, dge}=min{24.63 , 26.1} = 24.63 d(dg)h= min{ddh, dgh}=min{21.46 , 24.55} = 21.46 d(dg)i= min{ddi, dgi}=min{80.61 , 78.68} = 78.68 d(dg)j= min{ddj, dgj}=min{33.52 , 28.69} = 28.69
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster d dan g dan menambahkan baris dan kolom untuk cluster (d g), didapatkan matriks jarak yang baru : a a b c,f d,g e h i j
b 9,32
9,32 20,55 29,39 35,92 44,76 11,75 20,59 54,62 63,46 116,53 125,37 66,54 75,38
c,f 20,55 29,39 14,59 10,06 29,26 91,17 41,18
d, g 35,92 44,76 14,59
e 11,75 20,59 10,06 24,63
24,63 21,46 42,87 78,68 104,78 28,69 54,79
h 54,62 63,46 29,26 21,46 42,87 61,91 31,52
i 116,53 125,37 91,17 78,68 104,78 61,91 50,05
j 66,54 75,38 41,18 28,69 54,79 31,52 50,05
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 83
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(a , b)=9.32
a a b c,f d,g e h i j
b 9,32
9,32 20,55 29,39 35,92 44,76 11,75 20,59 54,62 63,46 116,53 125,37 66,54 75,38
c,f 20,55 29,39 14,59 10,06 29,26 91,17 41,18
d, g 35,92 44,76 14,59
e 11,75 20,59 10,06 24,63
24,63 21,46 42,87 78,68 104,78 28,69 54,79
h i 54,62 116,53 63,46 125,37 29,26 91,17 21,46 78,68 42,87 104,78 61,91 61,91 31,52 50,05
j 66,54 75,38 41,18 28,69 54,79 31,52 50,05
Terpilih cluster a dan b, maka cluster a dan b digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (a b) dengan cluster yang lain yang tersisa yaitu cf, dg, e, h, i, dan j dihitung kembali dengan metode single linkage. Jarak-jarak yang didapat adalah d(ab)(cf)= min{da(cf), db(cf)}=min{20.55 , 29.39} = 20.55 d(ab)(dg)= min{da(dg), db(dg)}=min{35.92 , 44.76} = 35.92 d(ab)e= min{dae, dbe}=min{11.75 , 20.59} = 11.75 d(ab)h= min{dah, dbh}=min{54.62 , 63.46} = 54.62 d(ab)i= min{dai, dbi}=min{116.53 , 125.37} = 116.53 d(ab)j= min{daj, dbj}=min{66.54 , 75.38} = 66.54
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster a dan b dan menambahkan baris dan kolom untuk cluster (a b), didapatkan matriks jarak yang baru :
a,b a,b c,f d,g e h i j
20,55 35,92 11,75 54,62 116,53 66,54
c,f 20,55 14,59 10,06 29,26 91,17 41,18
d, g 35,92 14,59
e 11,75 10,06 24,63
24,63 21,46 42,87 78,68 104,78 28,69 54,79
h i 54,62 116,53 29,26 91,17 21,46 78,68 42,87 104,78 61,91 61,91 31,52 50,05
j 66,54 41,18 28,69 54,79 31,52 50,05
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 84
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(cf , e)=10.58 a,b a,b c,f d,g e h i j
c,f 20,55
20,55 35,92 11,75 54,62 116,53 66,54
14,59 10,06 29,26 91,17 41,18
d, g 35,92 14,59
e 11,75 10,06 24,63
24,63 21,46 42,87 78,68 104,78 28,69 54,79
h i 54,62 116,53 29,26 91,17 21,46 78,68 42,87 104,78 61,91 61,91 31,52 50,05
j 66,54 41,18 28,69 54,79 31,52 50,05
Terpilih cluster cf dan e, maka cluster cf dan e digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (cf e) dengan cluster yang lain yang tersisa yaitu ab, dg, h, i, dan j dihitung kembali dengan metode single linkage. Jarak-jarak yang didapat adalah d((cf)e)(ab)= min{d(cf)(ab), de(ab)}=min{20.55 , 11.75} = 5.42 d((cf)e)(dg)= min{d(cf)(dg), de(dg)}=min{14.59 , 24.63} = 5.42 d((cf)e)(h)= min{d(cf)h, deh}=min{29.26 , 42.87} = 5.42 d((cf)e)(i)= min{d(cf)i, dei}=min{91.17 , 104.78} = 5.42 d((cf)e)(j)= min{d(cf)j, dej}=min{41.18 , 54.79} = 5.42
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster cf dan e dan menambahkan baris dan kolom untuk cluster (cf e), didapatkan matriks jarak yang baru :
a,b a,b c,f, e d,g h i j
11,75 35,92 54,62 116,53 66,54
c,f, e 11,75 14,59 29,26 91,17 41,18
d, g 35,92 14,59 21,46 78,68 28,69
h i 54,62 116,53 29,26 91,17 21,46 78,68 61,91 61,91 31,52 50,05
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d((ab) , (cfe))=11.75
j 66,54 41,18 28,69 31,52 50,05
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 85
a,b a,b c,f, e d,g h i j
c,f, e 11,75
11,75 35,92 54,62 116,53 66,54
14,59 29,26 91,17 41,18
d, g 35,92 14,59 21,46 78,68 28,69
h i 54,62 116,53 29,26 91,17 21,46 78,68 61,91 61,91 31,52 50,05
J 66,54 41,18 28,69 31,52 50,05
Terpilih cluster ab dan cfe, maka cluster ab dan cfe digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (ab cfe) dengan cluster yang lain yang tersisa yaitu dg, h, i, dan j dihitung kembali dengan metode single linkage. Jarak-jarak yang didapat adalah d((ab)(cfe))(dg)= min{d(ab)(dg), d(cfe)(dg)}=min{35.92 , 14.59} = 14.59 d((ab)(cfe))h= min{d(ab)h, d(cfe)(dg)}=min{54.62 , 29.26} = 29.26 d((ab)(cfe))i= min{d(ab)i, d(cfe)i}=min{116.53 , 91.17} = 91.17 d((ab)(cfe))j= min{d(ab)j, d(cfe)j}=min{66.54 , 41.18} = 41.18
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster ab dan cfe dan menambahkan baris dan kolom untuk cluster (ab cfe), didapatkan matriks jarak yang baru : a,b,c,f,e a,b,c,f,e d,g h i j
14,59 29,26 91,17 41,18
d, g 14,59 21,46 78,68 28,69
h 29,26 21,46 61,91 31,52
i 91,17 78,68 61,91
j 41,18 28,69 31,52 50,05
50,05
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(abcfe , dg)=14.59
a,b,c,f,e a,b,c,f,e d,g h i j
14,59 29,26 91,17 41,18
d, g 14,59 21,46 78,68 28,69
h 29,26 21,46 61,91 31,52
i 91,17 78,68 61,91 50,05
j 41,18 28,69 31,52 50,05
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 86
Terpilih cluster abcfe dan dg, maka cluster abcfe dan dg digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (abcfe dg) dengan cluster yang lain yang tersisa yaitu h, i, dan j dihitung kembali dengan metode single linkage. Jarak-jarak yang didapat adalah d((abcfe)(dg))h= min{d(abcfe)h, d(dg)h}=min{29.26 , 21.46} = 21.46 d((abcfe)(dg))h= min{d(abcfe)i, d(dg)i}=min{91.17 , 78.68} = 78.68 d((abcfe)(dg))h= min{d(abcfe)j, d(dg)j}=min{41.18 , 28.69} = 28.69
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster abcfe dan dg dan menambahkan baris dan kolom untuk cluster (abcfe dg), didapatkan matriks jarak yang baru :
a,b,c,f,e,d,g a,b,c,f,e,d,g h i j
21,46 78,68 28,69
h 21,46 61,91 31,52
i 78,68 61,91
j 28,69 31,52 50,05
50,05
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d((abcfedg) , h)=21.46
a,b,c,f,e,d,g a,b,c,f,e,d,g h i j
21,46 78,68 28,69
h 21,46 61,91 31,52
i 78,68 61,91
j 28,69 31,52 50,05
50,05
Terpilih cluster abcefdg dan h, maka cluster abcefdg dan h digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (abcfedg h) dengan cluster yang lain yang tersisa yaitu i dan j dihitung kembali dengan metode single linkage. Jarak-jarak yang didapat adalah d((abcfedg)h)i = min{d(abcfedg)i, dhi}=min{78.68 , 61.91} = 61.91 d((abcfedg)h)j = min{d(abcfedg)j, dhj}=min{28.69 , 31.52} = 28.69
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 87
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster abcefdg dan h dan menambahkan baris dan kolom untuk cluster (abcfedg h), didapatkan matriks jarak yang baru :
a,b,c,f,e,d,g,h a,b,c,d,f,e,g,h i j
61,91 28,69
i 61,91
j 28,69 50,05
50,05
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d((abcfedgh) , j)=28.69
a,b,c,d,f,e,g,h a,b,c,d,f,e,g,h i j
61,91 28,69
i 61,91
j 28,69 50,05
50,05
Terpilih cluster abcdfegh dan j, maka cluster abcdfegh dan j digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (abcdfegh j) dengan cluster yang lain yang tersisa yaitu i dihitung kembali dengan metode single linkage. Jarak-jarak yang didapat adalah d((abcdfegh)j)i= min{d(abcdfegh) i , dji}=min{61.91 , 50.05} = 50.05
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster abcdfegh dan j dan menambahkan baris dan kolom untuk cluster (abcdfegh j), didapatkan matriks jarak yang baru :
a,b,c,d,f,e,g,h,j a,b,c,d,f,e,g,h,j i
i 50,05
50,05
Jadi, cluster (i) dan (abcfedghj) digabung membentuk cluster tunggal dari semua 10 data (a b c f e d g h j i) ketika jarak terdekat mencapai 50,05.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 88
Pada penelitian ini, peneliti ingin membagi menjadi 3 kelompok sekolah sehingga proses penggabungan matriks jarak berhenti ketika kelompok tersisa 3. Anggotaanggota kelompok yang terbentuk ketika kelompok tersisa 3, yaitu : -
Kelompok 1 : a,b,c,f,e,d,g,h
-
Kelompok 2 : i
-
Kelompok 3 : j
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 89
Complete linkage Dengan memperlakukan setiap data sebagai cluster, selanjutnya dipilih jarak dua cluster yang paling kecil. Min{d(U,V)}=d(c , f)= 6.49
a a b c d e f g h i j
9,32 20,55 35,92 11,75 25,36 37,85 54,62 116,5 66,54
b c 9,32 20,55 29,39 29,39 44,76 15,37 20,59 10,06 34,2 6,49 46,69 18,4 63,46 34,07 125,4 95,98 75,38 45,99
d e 35,92 11,75 44,76 20,59 15,37 10,06 24,63 24,63 15,8 13,61 8,73 26,1 21,46 42,87 80,61 104,8 33,52 54,79
f g h i j 25,36 37,85 54,62 116,5 66,54 34,2 46,69 63,46 125,4 75,38 6,49 18,4 34,07 95,98 45,99 15,8 8,73 21,46 80,61 33,52 13,61 26,1 42,87 104,8 54,79 14,59 29,26 91,17 41,18 14,59 24,55 78,68 28,69 29,26 24,55 61,91 31,52 91,17 78,68 61,91 50,05 41,18 28,69 31,52 50,05
Terpilih cluster c dan f, maka cluster c dan f digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (c f) dengan cluster yang lain yang tersisa yaitu a, b, d, e, g, h, i, dan j dihitung kembali dengan metode complete linkage. Jarak-jarak yang didapat adalah d(cf)a= max{dca, dfa}=max{20.55 , 25.36} = 25.36 d(cf)b= max{dcb, dfb}=max{29.39 , 34.2} = 34.2 d(cf)d= max{dcd, dfd}=max{15.37, 15.8} = 15.8 d(cf)e= max{dce, dfe}=max{10.06 , 13.61} = 13.61 d(cf)g= max{dcg, dfg}=max{18.4 , 14.59} = 18.4 d(cf)h= max{dch, dfh}=max{34.07 , 29.26} = 34.07 d(cf)i= max{dci, dfi}=max{95.98 , 91.17} = 95.98 d(cf)j= max{dcj, dfa}=max{45.99 , 41.18} = 45.99
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster c dan f dan menambahkan baris dan kolom untuk cluster (c , f), didapatkan matriks jarak yang baru :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 90
a a b c,f d e g h i j
9,32 25,36 35,92 11,75 37,85 54,62 116,5 66,54
b c,f 9,32 25,36 34,2 34,2 44,76 15,8 20,59 13,61 46,69 18,4 63,46 34,07 125,4 95,98 75,38 45,99
d e g h 35,92 11,75 37,85 54,62 44,76 20,59 46,69 63,46 15,8 13,61 18,4 34,07 24,63 8,73 21,46 24,63 26,1 42,87 8,73 26,1 24,55 21,46 42,87 24,55 80,61 104,8 78,68 61,91 33,52 54,79 28,69 31,52
i 116,5 125,4 95,98 80,61 104,8 78,68 61,91
j 66,54 75,38 45,99 33,52 54,79 28,69 31,52 50,05
50,05
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(d , g)=8.73
a a b c,f d e g h i j
9,32 25,36 35,92 11,75 37,85 54,62 116,5 66,54
b c,f 9,32 25,36 34,2 34,2 44,76 15,8 20,59 13,61 46,69 18,4 63,46 34,07 125,4 95,98 75,38 45,99
d e g h 35,92 11,75 37,85 54,62 44,76 20,59 46,69 63,46 15,8 13,61 18,4 34,07 24,63 8,73 21,46 24,63 26,1 42,87 8,73 26,1 24,55 21,46 42,87 24,55 80,61 104,8 78,68 61,91 33,52 54,79 28,69 31,52
i 116,5 125,4 95,98 80,61 104,8 78,68 61,91
j 66,54 75,38 45,99 33,52 54,79 28,69 31,52 50,05
50,05
Terpilih cluster d dan g, maka cluster d dan g digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (d g) dengan cluster yang lain yang tersisa yaitu a ,b ,c f, e, h, i, dan j dihitung kembali dengan metode complete linkage. Jarak-jarak yang didapat adalah d(dg)a= max{dda, dga}=max{35.92 , 37.85} = 37.85 d(dg)b= max{ddb, dgb}=max{44.76 , 46.69} = 46.69 d(dg)(cf)= max{dd(cf), dg(cf)}=max{15.8 , 18.4} = 18.4 d(dg)e= max{dde, dge}=max{24.63 , 26.1} = 26.1 d(dg)h= max{ddh, dgh}=max{21.46 , 24.55} = 24.55 d(dg)i= max{ddi, dgi}=max{80.61 , 78.68} = 80.61 d(dg)j= max{ddj, dgj}=max{33.52 , 28.69} = 33.52
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 91
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster d dan g dan menambahkan baris dan kolom untuk cluster (d g), didapatkan matriks jarak yang baru :
a a b c,f d,g e h i j
9,32 25,36 37,85 11,75 54,62 116,5 66,54
b c,f 9,32 25,36 34,2 34,2 46,69 18,4 20,59 13,61 63,46 34,07 125,4 95,98 75,38 45,99
d,g e h i 37,85 11,75 54,62 116,5 46,69 20,59 63,46 125,4 18,4 13,61 34,07 95,98 26,1 24,55 80,61 26,1 42,87 104,8 24,55 42,87 61,91 80,61 104,8 61,91 33,52 54,79 31,52 50,05
j 66,54 75,38 45,99 33,52 54,79 31,52 50,05
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(a,b)= 9.32
a a b c,f d,g e h i j
9,32 25,36 37,85 11,75 54,62 116,5 66,54
b c,f 9,32 25,36 34,2 34,2 46,69 18,4 20,59 13,61 63,46 34,07 125,4 95,98 75,38 45,99
d,g e h i 37,85 11,75 54,62 116,5 46,69 20,59 63,46 125,4 18,4 13,61 34,07 95,98 26,1 24,55 80,61 26,1 42,87 104,8 24,55 42,87 61,91 80,61 104,8 61,91 33,52 54,79 31,52 50,05
j 66,54 75,38 45,99 33,52 54,79 31,52 50,05
Terpilih cluster a dan b, maka cluster a dan b digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (a b) dengan cluster yang lain yang tersisa yaitu cf ,dg, e, h, i, dan j dihitung kembali dengan metode complete linkage. Jarak-jarak yang didapat adalah d(ab)(cf)= max{da(cf), db(cf)}=max{25.36 , 34.2} = 34.2 d(ab)(dg)= max{da(dg), db(dg)}=max{37.85 , 46.69} = 46.69 d(ab)e= max{dae, dbe}=max{11.75 , 20.59} = 20.59 d(ab)h= max{dah, dbh}=max{54.62 , 63.46} = 63.46 d(ab)i= max{dai, dbi}=max{116.53 , 125.37} = 125.37 d(ab)j= max{daj, dbj}=max{66.54 , 75.38} = 75.38
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 92
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster a dan b dan menambahkan baris dan kolom untuk cluster (a b), didapatkan matriks jarak yang baru :
a,b a,b c,f d,g e h i j
34,2 46,69 20,59 63,46 125,4 75,38
c,f d,g 34,2 46,69 18,4 18,4 13,61 26,1 34,07 24,55 95,98 80,61 45,99 33,52
e h i j 20,59 63,46 125,4 75,38 13,61 34,07 95,98 45,99 26,1 24,55 80,61 33,52 42,87 104,8 54,79 42,87 61,91 31,52 104,8 61,91 50,05 54,79 31,52 50,05
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(cf , e)= 13.61
a,b a,b c,f d,g e h i j
34,2 46,69 20,59 63,46 125,4 75,38
c,f d,g 34,2 46,69 18,4 18,4 13,61 26,1 34,07 24,55 95,98 80,61 45,99 33,52
e h i j 20,59 63,46 125,4 75,38 13,61 34,07 95,98 45,99 26,1 24,55 80,61 33,52 42,87 104,8 54,79 42,87 61,91 31,52 104,8 61,91 50,05 54,79 31,52 50,05
Terpilih cluster cf dan e, maka cluster cf dan e digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (cf e) dengan cluster yang lain yang tersisa yaitu ab, dg, h, i, dan j dihitung kembali dengan metode complete linkage. Jarak-jarak yang didapat adalah d((cf)e)(ab)= max{d(cf)(ab), de(ab)}=max{34.2 , 20.59} = 34.2 d((cf)e)(dg)= max{d(cf)(dg), de(dg)}=max{18.4 , 26,1} = 26.1 d((cf)e)(h)= max{d(cf)h, deh}=max{34.07 , 42.87} = 42.87 d((cf)e)(i)= max{d(cf)i, dei}=max{95.98 , 104.8} = 104.8 d((cf)e)(j)= max{d(cf)j, dej}=max{45.99 , 54.79} = 54.79
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 93
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster cf dan e dan menambahkan baris dan kolom untuk cluster (cf e), didapatkan matriks jarak yang baru :
a,b a,b c,f,e d,g h i j
34,2 46,69 63,46 125,4 75,38
c,f,e d,g 34,2 46,69 26,1 26,1 42,87 24,55 104,8 80,61 54,79 33,52
h i j 63,46 125,4 75,38 42,87 104,8 54,79 24,55 80,61 33,52 61,91 31,52 61,91 50,05 31,52 50,05
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(dg , h)= 24.55
a,b a,b c,f,e d,g h i j
34,2 46,69 63,46 125,4 75,38
c,f,e d,g 34,2 46,69 26,1 26,1 42,87 24,55 104,8 80,61 54,79 33,52
h i j 63,46 125,4 75,38 42,87 104,8 54,79 24,55 80,61 33,52 61,91 31,52 61,91 50,05 31,52 50,05
Terpilih cluster dg dan h, maka cluster dg dan h digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (dg h) dengan cluster yang lain yang tersisa yaitu ab , cfe, i, dan j dihitung kembali dengan metode complete linkage. Jarak-jarak yang didapat adalah d((dg)h)(ab) = max{d(dg)(ab), dh(ab)}=max{46.69 , 63.46} = 62.46 d((dg)h)(cfe) = max{d(dg)(cfe), dh(cfe)}=max{26.1 , 42.87} = 42.87 d((dg)h)(i) = max{d(dg)(i), dhi}=max{80.61 , 61.91} = 80.61 d((dg)h)(j) = max{d(dg)(j), dhj}=max{33.52 , 31.52} = 33.52
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster dg dan h dan menambahkan baris dan kolom untuk cluster (dg h), didapatkan matriks jarak yang baru :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 94
a,b a,b c,f,e 34,2 d,g,h 63,46 i 125,4 j 75,38
c,f,e d,g,h 34,2 63,46 42,87 42,87 104,8 80,61 54,79 33,52
i j 125,4 75,38 104,8 54,79 80,61 33,52 50,05 50,05
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(dgh , j)= 33.52
a,b a,b c,f,e 34,2 d,g,h 63,46 i 125,4 j 75,38
c,f,e d,g,h 34,2 63,46 42,87 42,87 104,8 80,61 54,79 33,52
i j 125,4 75,38 104,8 54,79 80,61 33,52 50,05 50,05
Terpilih cluster dgh dan j, maka cluster dgh dan j digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (dgh j) dengan cluster yang lain yang tersisa yaitu ab, cfe, dan i dihitung kembali dengan metode complete linkage. Jarak-jarak yang didapat adalah d((dgh)j)(ab)= max{d(dgh)(ab), dj(ab)}=max{63.46 , 75.38} = 75.38 d((dgh)j)(cfe)= max{d(dgh)(cfe), dj(cfe)}=max{42.87 , 54.79} = 54.79 d((dgh)j)i= max{d(dgh)i, dji}=max{80.61 , 50.05} = 80.61
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster dgh dan j dan menambahkan baris dan kolom untuk cluster (dgh j), didapatkan matriks jarak yang baru :
a,b
c,f,e d,g,h,j i a,b 34,2 75,38 125,4 c,f,e 34,2 54,79 104,8 d,g,h,j 75,38 54,79 80,61 i 125,4 104,8 80,61
selanjutnya dipilih jarak dua cluster yang paling kecil
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 95
Min{d(U,V)}=d((ab) , 10)= 6,69
a,b
c,f,e d,g,h,j i a,b 34,2 75,38 125,4 c,f,e 34,2 54,79 104,8 d,g,h,j 75,38 54,79 80,61 i 125,4 104,8 80,61
Terpilih cluster ab dan cfe, maka cluster ab dan cfe digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (ab cfe) dengan cluster yang lain yang tersisa yaitu dghj dan i dihitung kembali dengan metode complete linkage. Jarak-jarak yang didapat adalah d((ab)(cfe))(dghj)= max{d(ab)(dghj), d(cfe)(dghj)}=max{75.38 , 54.79} = 75.38 d((ab)(cfe))i= max{d(ab)i, d(cfe)i}=max{125.4 , 104.8} = 125.4
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster ab dan cfe dan menambahkan baris dan kolom untuk cluster (ab cfe), didapatkan matriks jarak yang baru :
a,b,c,f,e d,g,h,j i a,b,c,f,e 75,38 125,4 d,g,h,j 75,38 80,61 i 125,4 80,61
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(abcfe , dghj)= 75.38
a,b,c,f,e d,g,h,j i a,b,c,f,e 75,38 125,4 d,g,h,j 75,38 80,61 i 125,4 80,61
Terpilih cluster abcfe dan dghj, maka cluster abcfe dan dghj digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 96
(abcfe dghj) dengan cluster yang lain yang tersisa yaitu i dihitung kembali dengan metode complete linkage. Jarak-jarak yang didapat adalah d((abcfe)(dghj))i
= max{d(abcfe)i, d(dgh)i }
=max{125.4 , 80.61} = 125.4
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster abcfe dan dghj dan menambahkan baris dan kolom untuk cluster (abcfe dghj), didapatkan matriks jarak yang baru :
a,b,c,f,e,d,g,h,j a,b,c,f,e,d,g,h,j i
i 125,4
125,4
Jadi, cluster abcfedghj dan i digabung membentukcluster tunggal dari semua 10 data (a b c f e d g h j i) ketika jarak terdekat mencapai 1254.
Pada penelitian ini, peneliti ingin membagi menjadi 3 kelompok sekolah sehingga proses penggabungan matriks jarak berhenti ketika kelompok tersisa 3. Anggotaanggota kelompok yang terbentuk ketika kelompok tersisa 3, yaitu : -
Kelompok 1 : a, b, c, f, e
-
Kelompok 2 : d, g, h, j
-
Kelompok 3 : i
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 97
Average linkage Dengan memperlakuakn setiap data sebagai cluster, selanjutnya dipilih jarak dua cluster yang paling kecil. Min{d(U,V)}=d(c , f)= 6.49
a a b c d e f g h i j
b 9,32
9,32 20,55 29,39 35,92 44,76 11,75 20,59 25,36 34,2 37,85 46,69 54,62 63,46 116,53 125,37 66,54 75,38
c 20,55 29,39 15,37 10,06 6,49 18,4 34,07 95,98 45,99
d 35,92 44,76 15,37
e 11,75 20,59 10,06 24,63
24,63 15,8 13,61 8,73 26,1 21,46 42,87 80,61 104,78 33,52 54,79
f 25,36 34,2 6,49 15,8 13,61 14,59 29,26 91,17 41,18
g 37,85 46,69 18,4 8,73 26,1 14,59 24,55 78,68 28,69
h i 54,62 116,53 63,46 125,37 34,07 95,98 21,46 80,61 42,87 104,78 29,26 91,17 24,55 78,68 61,91 61,91 31,52 50,05
j 66,54 75,38 45,99 33,52 54,79 41,18 28,69 31,52 50,05
Terpilih cluster c dan f, maka cluster c dan f digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (c f) dengan cluster yang lain yang tersisa yaitu a, b, d, e, g, h, i, dan j dihitung kembali dengan metode average linkage. Jarak-jarak yang didapat adalah d(cf)a= (dca+dfa)/2=(20.55+25.36)/2 = 22.955 d(cf)b= (dcb+dfb)/2=(29.39+34.2)/2 = 31.795 d(cf)d= (dcd+dfd)/2=(15.37+15.8)/2 = 15.585 d(cf)e= (dce+dfe)/2=(10.06+13.61)/2 = 11.835 d(cf)g= (dcg+dfg)/2=(18.4+14.59)/2 = 16.495 d(cf)h= (dch+dfh)/2=(34.07+29.26)/2 = 31.665 d(cf)i= (dci+dfi)/2=(95.98+91.17)/2 = 93.575 d(cf)j= (dcj+dfj)/2=(45.99+41.18)/2 = 43.585
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster c dan f dan menambahkan baris dan kolom untuk cluster (c f), didapatkan matriks jarak yang baru :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 98
a a b c,f d e g h i j
9,32 22,955 35,92 11,75 37,85 54,62 116,53 66,54
b 9,32 31,795 44,76 20,59 46,69 63,46 125,37 75,38
c,f 22,955 31,795 15,585 11,835 16,495 31,665 93,575 43,585
d 35,92 44,76 15,585 24,63 8,73 21,46 80,61 33,52
e 11,75 20,59 11,835 24,63 26,1 42,87 104,78 54,79
g 37,85 46,69 16,495 8,73 26,1 24,55 78,68 28,69
h 54,62 63,46 31,665 21,46 42,87 24,55
i 116,53 125,37 93,575 80,61 104,78 78,68 61,91
61,91 31,52
j 66,54 75,38 43,585 33,52 54,79 28,69 31,52 50,05
50,05
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(d , g)=8.73
a a b c,f d e g h i j
9,32 22,955 35,92 11,75 37,85 54,62 116,53 66,54
b 9,32 31,795 44,76 20,59 46,69 63,46 125,37 75,38
c,f 22,955 31,795 15,585 11,835 16,495 31,665 93,575 43,585
d 35,92 44,76 15,585 24,63 8,73 21,46 80,61 33,52
e 11,75 20,59 11,835 24,63 26,1 42,87 104,78 54,79
g 37,85 46,69 16,495 8,73 26,1 24,55 78,68 28,69
h 54,62 63,46 31,665 21,46 42,87 24,55
i 116,53 125,37 93,575 80,61 104,78 78,68 61,91
61,91 31,52
j 66,54 75,38 43,585 33,52 54,79 28,69 31,52 50,05
50,05
Terpilih cluster d dan g, maka cluster d dan g digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (d g) dengan cluster yang lain yang tersisa yaitu a, b, cf, e, h, i, dan j dihitung kembali dengan metode average linkage. Jarak-jarak yang didapat adalah d(dg)a= (dda+dga)/2=(35.92+37.85)/2 = 36.885 d(dg)b= (ddb+dga)/2=(44.76+46.69)/2 = 45.725 d(dg)cf= (ddc+ ddf +dgc+ dgf)/4=(15.37+15.8+18.4+14.59)/4 =16.04 d(dg)e= (dde+dge)/2=(24.63+26.1)/2 = 25.365 d(dg)h= (ddh+dgh)/2=(21.46+24.55)/2 = 23.005 d(dg)i= (ddi+dgi)/2=(80.61+78.68)/2 = 10,98/2 = 79.645 d(dg)j= (ddj+dgj)/2=(33.52+28.69)/2 = 10,98/2 = 31.105
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 99
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster d dan g dan menambahkan baris dan kolom untuk cluster (d g), didapatkan matriks jarak yang baru :
a a b c,f d,g e h i j
9,32 22,955 36,885 11,75 54,62 116,53 66,54
b 9,32 31,795 45,725 20,59 63,46 125,37 75,38
c,f 22,955 31,795 16,04 11,835 31,665 93,575 43,585
d,g 36,885 45,725 16,04 25,365 23,005 79,645 31,105
e 11,75 20,59 11,835 25,365
h 54,62 63,46 31,665 23,005 42,87
42,87 104,78 54,79
61,91 31,52
i 116,53 125,37 93,575 79,645 104,78 61,91
j 66,54 75,38 43,585 31,105 54,79 31,52 50,05
50,05
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(a , b)= 9.32
a a b c,f d,g e h i j
9,32 22,955 36,885 11,75 54,62 116,53 66,54
b 9,32 31,795 45,725 20,59 63,46 125,37 75,38
c,f 22,955 31,795 16,04 11,835 31,665 93,575 43,585
d,g 36,885 45,725 16,04 25,365 23,005 79,645 31,105
e 11,75 20,59 11,835 25,365 42,87 104,78 54,79
h 54,62 63,46 31,665 23,005 42,87 61,91 31,52
i 116,53 125,37 93,575 79,645 104,78 61,91
j 66,54 75,38 43,585 31,105 54,79 31,52 50,05
50,05
Terpilih cluster a dan b, maka cluster a dan b digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (a b) dengan cluster yang lain yang tersisa yaitu cf, dg, e, h, i, dan j dihitung kembali dengan metode average linkage. Jarak-jarak yang didapat adalah d(ab)(cf)= (dac+ daf+ dbc+ dbf)/4=(20.55+25.36+29.39+34.2)/4 = 27.375 d(ab)(dg)= (dad+ dag+ dbd+ dbg)/4=(35.92+37.85+44.76+46.69)/4 = 41.305 d(ab)e= (dae+dbe)/2=(11.75+20.59)/2 = 16.17 d(ab)h= (dah+dbh)/2=(54.62+63.46)/2 = 59.04 d(ab)i= (dai+dbi)/2=(116.53+125.37)/2 =120.95 d(ab)j= (daj+dbj)/2=(66.54+75.38)/2 =70.96
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 100
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster a dan b dan menambahkan baris dan kolom untuk cluster (a b), didapatkan matriks jarak yang baru :
a,b a,b c,f d,g e h i j
27,375 41,305 16,17 59,04 120,95 70,96
c,f 27,375 16,04 11,835 31,665 93,575 43,585
d,g 41,305 16,04 25,365 23,005 79,645 31,105
e 16,17 11,835 25,365 42,87 104,78 54,79
h 59,04 31,665 23,005 42,87 61,91 31,52
i 120,95 93,575 79,645 104,78 61,91
j 70,96 43,585 31,105 54,79 31,52 50,05
50,05
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(cf , e)=11.835
a,b a,b c,f d,g e h i j
27,375 41,305 16,17 59,04 120,95 70,96
c,f 27,375 16,04 11,835 31,665 93,575 43,585
d,g 41,305 16,04 25,365 23,005 79,645 31,105
e 16,17 11,835 25,365 42,87 104,78 54,79
h 59,04 31,665 23,005 42,87 61,91 31,52
i 120,95 93,575 79,645 104,78 61,91
j 70,96 43,585 31,105 54,79 31,52 50,05
50,05
Terpilih cluster cf dan e, maka cluster cf dan e digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (cf e) dengan cluster yang lain yang tersisa yaitu ab, dg, h, i, dan j dihitung kembali dengan metode average linkage. Jarak-jarak yang didapat adalah d((cf)e)(ab)
= (dca+dcb+dfa+dfb+dea+deb)/6 = 23.64
d((cf)e)(dg)
= (dcd+dcg+dfd+dfg+ded+deg)/6 = 41.305
d((cf)e)h
= (dch+dfh+deh)/3 = 35.4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 101
d((cf)e)i
= (dci+dfi+dei)/3 = 97.31
d((cf)e)j
= (dcj+dfj+dej)/3 = 47.32
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster cf dan e dan menambahkan baris dan kolom untuk cluster (cf e), didapatkan matriks jarak yang baru :
a,b a,b c,f,e d,g h i j
c,f,e 23,64
23,64 41,305 19,1483 59,04 35,4 120,95 97,31 70,96 47,32
d,g 41,305 19,1483 23,005 79,645 31,105
h 59,04 35,4 23,005 61,91 31,52
i 120,95 97,31 79,645 61,91
j 70,96 47,32 31,105 31,52 50,05
50,05
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(cfe , dg)=19.1483
a,b a,b c,f,e d,g h i j
c,f,e 23,64
23,64 41,305 19,1483 59,04 35,4 120,95 97,31 70,96 47,32
d,g 41,305 19,1483 23,005 79,645 31,105
h 59,04 35,4 23,005 61,91 31,52
i 120,95 97,31 79,645 61,91
j 70,96 47,32 31,105 31,52 50,05
50,05
Terpilih cluster cfe dan dg, maka cluster cfe dan dg digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (cfe dg) dengan cluster yang lain yang tersisa yaitu ab, h, i, dan j dihitung kembali dengan metode average linkage. Jarak-jarak yang didapat adalah d((cfe)(dg))(ab)
= (dca+dcb+dfa+dfb+dea+deb+dda+ddb+dga+dgb)/10 = 30.706
d((cfe)(dg))h
= (dch+dfh+deh+ddh+dgh)/5 = 30.442
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 102
d((cfe)(dg))i
= (dci+dfi+dei+ddi+dgi)/5 = 90.244
d((cfe)(dg))j
= (dcj+dfj+dej+ddj+dgj)/5 = 40.834
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster cfe dan dg dan menambahkan baris dan kolom untuk cluster (cfe dg), didapatkan matriks jarak yang baru :
a,b a,b c,f,e,d,g h i j
30,706 59,04 120,95 70,96
c,f,e,d,g 30,706 30,442 90,244 40,834
h 59,04 30,442
i 120,95 90,244 61,91
61,91 31,52
j 70,96 40,834 31,52 50,05
50,05
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(cfedg, h)=30.442
a,b a,b c,f,e,d,g h i j
30,706 59,04 120,95 70,96
c,f,e,d,g 30,706 30,442 90,244 40,834
h 59,04 30,442 61,91 31,52
i 120,95 90,244 61,91
j 70,96 40,834 31,52 50,05
50,05
Terpilih cluster cfedg dan h, maka cluster cfedg dan h digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (cfedg h) dengan cluster yang lain yang tersisa yaitu ab, i dan j dihitung kembali dengan metode average linkage. Jarak-jarak yang didapat adalah d((cfedg)(h))(ab)
= (dca+dcb+dfa+dfb+dea+deb+dda+ddb+dga+dgb+dha+dhb)/12 = 35.4283
d((cfedg)(h))i
= (dci+dfi+dei+ddi+dgi+dhi)/6 = 85.4283
d((cfedg)(h))j
= (dcj+dfj+dej+ddj+dgj+dhj)/6
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 103
= 40.834
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster cfedg dan h dan menambahkan baris dan kolom untuk cluster (cfedg h), didapatkan matriks jarak yang baru :
a,b a,b c,f,e,d,g,h 35,4283 i 120,95 j 70,96
c,f,e,d,g,h 35,4283 85,5217 40,834
i 120,95 85,5217
j 70,96 40,834 50,05
50,05
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(cfedgh , ab)=35.4283
a,b a,b c,f,e,d,g,h 35,4283 i 120,95 j 70,96
c,f,e,d,g,h 35,4283 85,5217 40,834
i 120,95 85,5217
j 70,96 40,834 50,05
50,05
Terpilih cluster ab dan cfedgh, maka cluster ab dan cfedgh digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (ab cfedgh) dengan cluster yang lain yang tersisa yaitu i dan j dihitung kembali dengan metode average linkage. Jarak-jarak yang didapat adalah d((cfedgh)(ab))i
= (dci+dfi+dei+ddi+dgi+dhi+dai+dbi)/8 = 94.3788
d((cfedgh)(ab))j
= (dcj+dfj+dej+ddj+dgj+dhj+daj+dbj)/8 = 47.2013
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster ab dan cfedgh dan menambahkan baris dan kolom untuk cluster (ab cfedgh), didapatkan matriks jarak yang baru :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 104
a,b,c,f,e,d,g,h
i j 94,3788 47,2013 94,3788 50,05 47,2013 50,05
a,b,c,f,e,d,g,h i j
selanjutnya dipilih jarak dua cluster yang paling kecil Min{d(U,V)}=d(abcfedgh , j)=47.2013
a,b,c,f,e,d,g,h a,b,c,f,e,d,g,h i j
i j 94,3788 47,2013 94,3788 50,05 47,2013 50,05
Terpilih cluster abcfedgh dan j, maka cluster abcfedgh dan j digabung. Untuk melanjutkan tingkat pengelompokan berikutnya maka jarak-jarak antar cluster (abcfedgh j) dengan cluster yang lain yang tersisa yaitu i dihitung kembali dengan metode average linkage. Jarak-jarak yang didapat adalah d((abcfedgh)(j))i =(dai+dbi+dci+dfi+dei+ddi+dgi+dhi+dji)/9 =94.3788
Dengan menghapus baris-baris dan kolom-kolom matriks D yang bersesuaian dengan cluster abcfedgh dan j dan menambahkan baris dan kolom untuk cluster (abcfedgh j), didapatkan matriks jarak yang baru :
a,b,c,f,e,d,g,h,j a,b,c,f,e,d,g,h,j i
i 94,3788
94,3788
Jadi, cluster abcfedgh dan j digabung membentuk cluster tunggal dari semua 10 data (a b c f e d g h j i) ketika jarak terdekat mencapai 94.3788.
Pada penelitian ini, peneliti ingin membagi menjadi 3 kelompok sekolah sehingga proses penggabungan matriks jarak berhenti ketika kelompok tersisa 3. Anggotaanggota kelompok yang terbentuk ketika kelompok tersisa 3, yaitu : -
Kelompok 1 : a, b, c, f, e, d, g, h
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 105
-
Kelompok 2 : i
-
Kelompok 3 : j