PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PENERAPAN ALGORITMA MIXCBLOF BERBASIS KLASTER UNTUK IDENTIFIKASI OUTLIER PADA DATA HASIL UJIAN NASIONAL, INDEKS INTEGRITAS, DAN AKREDITASI SMA DI DAERAH ISTIMEWA YOGYAKARTA
SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika
Oleh : I. Kristanto Riyadi NIM : 135314062
PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2017
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PENERAPAN ALGORITMA MIXCBLOF BERBASIS KLASTER UNTUK IDENTIFIKASI OUTLIER PADA DATA HASIL UJIAN NASIONAL, INDEKS INTEGRITAS, DAN AKREDITASI SMA DI DAERAH ISTIMEWA YOGYAKARTA
SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika
Oleh : I. Kristanto Riyadi NIM : 135314062
PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2017
ii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
IMPLEMENTATION OF MIXCBLOF ALGORITHM BASED CLUSTER FOR OUTLIER IDENTIFICATION IN NATIONAL DATA SCORES, INTEGRITY INDEX, AND ACCREDITATION OF SENIOR HIGH SCHOOL IN YOGYAKARTA
FINAL PROJECT Present as Partial Fullfillment of the Requirements to Obtain the Sarjana Komputer Degree in Informatics Engineering Study Program
By : I. Kristanto Riyadi NIM : 135314062
INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 2017
iii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
v
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
HALAMAN PERSEMBAHAN
“Mintalah, maka akan diberikan kepadamu; carilah, maka kamu
akan mendapat; ketoklah, maka pintu akan dibukakan bagimu” (Mat 7:7)
Karya ini kupersembahkan kepada : Orangtuaku, P. Sutarmijan dan M.Sumaryati Saudara-saudaraku Sahabat
vi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ABSTRAK Dalam makalah ini dijabarkan mengenai algoritma MixCBLOF untuk mendeteksi outlier pada data hasil Ujian Nasional, Indeks Integritas Ujian Nasional, dan Akreditasi SMA di Daerah Istimewa Yogyakarta. Penulis menggunakan Knowledge Discovery in Database (KDD) yang terdiri dari pembersihan data, integrasi data, seleksi data, transformasi data, dan penambangan data. Pada tahap pembersihan data dan integrasi data dilakukan secara manual. Selanjutnya penulis merancang perangkat lunak sebagai alat untuk melakukan tahap evaluasi pola dari hasil penambangan data yang diperoleh dari perangkat lunak. Perangkat lunak diujikan dengan menggunakan dua dataset yang merupakan data hasil Ujian Nasional, Indeks Integritas Ujian Nasional, dan Akreditasi SMA tahun ajaran 2014/2015 di Daerah Istimewa Yogyakarta jurusan IPA dan jurusan IPS. Berdasarkan penelitian yang telah dilakukan, dapat diketahui bahwa algoritma MixCBLOF dapat digunakan untuk mendeteksi outlier pada data hasil Ujian Nasional, Indeks Integritas Ujian Nasional, dan Akreditasi SMA. Pendeteksian outlier dipengaruhi oleh nilai b dan nilai Akreditasi SMA. Kata Kunci – Algoritma MixCBLOF, Deteksi Outlier, Ujian Nasional, Indeks Integritas Ujian Nasional, Akreditasi, Penambangan Data
viii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ABSTRACT This paper describes the MixCBLOF algorithm to detect outliers on National Examination data, Integrity Index of National Examination, and SMA Accreditation in Yogyakarta. The writer uses Knowledge Discovery in Database (KDD) which consists of data cleaning, data integration, data selection, data transformation, and data mining. At the data cleaning stage and data integration conducted them manually. Furthermore the writer designed the software as a tool to perform the pattern evaluation stage of the data mining obtained from the software. The software is tested using two datasets which are National Exam result data, Integrity Index of National Examination, and SMA Accreditation in the academic year of 2014/2015 in Yogyakarta majoring in science and social studies majors. Based on the research that has been done, it can be seen that MixCBLOF can be used to detect outliers on National Examination, Integrity Index of National Examination, and SMA Accreditation. Outlier detection is influenced by b value and value of SMA Accreditation. Keywords – MixCBLOF Algorithm, Outlier Detection, National Exam, Integrity Index of National Examination, Accreditation, Data Mining
ix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
x
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
KATA PENGANTAR Puji syukur kepada Tuhan Yesus Kristus yang selalu menyertai dan membimbing saya dalam menyelesaikan skripsi yang berjudul “Penerapan Algoritma MixCBLOF Berbasis Klaster untuk Identifikasi Outlier Pada Data Hasil Ujian Nasional, Indeks Integritas, dan Akreditasi SMA di Daerah Istimewa Yogyakarta”. Skripsi ini tidak dapat saya selesaikan tanpa bantuan dan dukungan dari pihak lain. Untuk itu, dalam kesempatan ini penulis ingin mengucapkan terima kasih kepada: 1. Tuhan Yesus Kristus dan Bunda Maria yang selalu memberikan anugerah, rahmat, kekuatan, dan keberuntungan sehingga penulis dapat menyelesaikan tugas akhir ini. 2. Bapak Sudi Mungkasi, S.Si, M.Math.Sc., Ph.D. selaku Dekan Fakultas Sains dan Teknologi. 3. Ibu Dr. Anastasia Rita Widiarti selaku Ketua Program Studi Teknik Informatika dan juga selaku Dosen Metodologi Penelitian yang telah memberikan waktu, bimbingan, dan nasihat kepada penulis. 4. Ibu Paulina Heruningsih Prima Rosa, M.Sc. selaku Dosen Pembimbing Skripsi yang telah memberikan waktu, bimbingan, nasihat, dan motivasi kepada penulis. 5. Bapak Alb. Agung Hadhiatma, M.T. selaku Dosen Pembimbing Akademik penulis. 6. Seluruh Dosen, sekretariat, laboran, staff, dan perpustakaan yang telah membimbing dan membantu selama proses perkuliahan di Universitas Sanata Dharma. 7. Orangtuaku, Petrus Sutarmijan dan Maria Sumaryati serta saudarasaudaraku terkasih, terima kasih atas doa, kesabaran, perhatian, dukungan dan kesempatan yang diberikan sehingga skripsi ini dapat selesai.
xi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR ISI
HALAMAN JUDUL .......................................................................................................... ii TITLE PAGE ...................................................................................................................... iii HALAMAN PERSETUJUAN..............................................Error! Bookmark not defined. HALAMAN PENGESAHAN...............................................Error! Bookmark not defined. PERNYATAAN KEASLIAN KARYA ...............................Error! Bookmark not defined. ABSTRAK ........................................................................................................................ viii ABSTRACT........................................................................................................................ix PERSETUJUAN PUBLIKASI KARYA ILMIAH ...............Error! Bookmark not defined. KATA PENGANTAR ........................................................................................................xi DAFTAR ISI..................................................................................................................... xiii DAFTAR TABEL............................................................................................................ xvii DAFTAR GAMBAR ........................................................................................................ xix BAB I PENDAHULUAN ................................................................................................... 1 1.1
LATAR BELAKANG ........................................................................................ 1
1.2
RUMUSAN MASALAH .................................................................................... 4
1.3
TUJUAN ............................................................................................................. 4
1.4
BATASAN MASALAH ..................................................................................... 4
1.5
MANFAAT PENELITIAN................................................................................. 5
1.6
METODOLOGI PENELITIAN .......................................................................... 5
1.7
SISTEMATIKA PENULISAN ........................................................................... 6
BAB II LANDASAN TEORI ............................................................................................. 8 2.1
PENAMBANGAN DATA ................................................................................. 8
2.1.1
Pengertian Penambangan Data.................................................................... 8
2.1.2
Asal-usul Penambangan Data ..................................................................... 8
2.1.3
Tugas-tugas Penambangan Data ................................................................. 9
2.1.4
Knowledge Discovery in Databases (KDD) ............................................. 10
2.2
OUTLIER .......................................................................................................... 12
2.2.1
Pengertian Outlier ..................................................................................... 12
2.2.2
Pendekatan Deteksi Outlier ...................................................................... 13 xiii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2.3
MixCBLOF (Mix Cluster Based Local Outlier Factor) .................................... 14
2.3.1
CBLOF (Cluster Based Local Outlier Factor) ......................................... 14
2.3.2
NCBLOF (Numerical Cluster Based Local Outlier Factor) .................... 16
2.3.3
Algoritma MixCBLOF.............................................................................. 17
2.4
STRUKTUR DATA ......................................................................................... 18
BAB III METODOLOGI PENELITIAN.......................................................................... 21 3.1
BAHAN RISET/ DATA ................................................................................... 21
3.2
PERALATAN PENELITIAN........................................................................... 27
3.3
TAHAP-TAHAP PENELITIAN ...................................................................... 27
BAB IV PEMROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK PENAMBANGAN DATA ............................................................................................... 31 4.1
PEMROSESAN AWAL ................................................................................... 31
4.1.1
Pembersihan Data ..................................................................................... 31
4.1.2 Integrasi Data ................................................................................................... 31 4.1.3
Seleksi Data .............................................................................................. 32
4.1.4
Transformasi Data ..................................................................................... 35
4.2
PERANCANGAN PERANGKAT LUNAK PENAMBANGAN DATA ........ 35
4.2.1
Perancangan Umum .................................................................................. 35
4.2.1.1
Input Sistem .......................................................................................... 35
4.2.1.2
Proses Sistem ........................................................................................ 36
4.2.1.3
Output Sistem........................................................................................ 37
4.2.2
Diagram Use Case .................................................................................... 37
4.2.3
Diagram Aktivitas ..................................................................................... 39
4.2.4
Diagram Kelas Analisis ............................................................................ 39
4.2.5
Diagram Sekuen ........................................................................................ 39
4.2.6
Perancangan Struktur Data........................................................................ 39
4.2.7
Diagram Kelas Disain ............................................................................... 41
4.2.8
Algoritma per Method ............................................................................... 41
4.2.9
Perancangan Antarmuka ........................................................................... 41
4.2.9.1
Perancangan Halaman Awal ................................................................. 42
4.2.9.2
Perancangan Halaman Proses ............................................................... 43
4.2.9.3
Perancangan Halaman Bantuan............................................................. 46 xiv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Perancangan Halaman Tentang ............................................................. 47
4.2.9.4
BAB V IMPLEMENTASI PENAMBANGAN DATA DAN EVALUASI HASIL ........ 48 5.1
IMPLEMENTASI RANCANGAN PERANGKAT LUNAK .......................... 48
5.1.1
Implementasi Kelas Model........................................................................ 48
5.1.2
Implementasi Kelas View .......................................................................... 48
5.1.3
Implementasi Kelas Control ..................................................................... 57
5.2
EVALUASI HASIL .......................................................................................... 58
5.2.1
Pengujian Perangkat Lunak (Black Box)................................................... 58
5.2.1.1.
Rencana Pengujian Black Box........................................................... 58
5.2.1.2.
Prosedur Pengujian Black Box dan Kasus Uji................................... 58
5.2.1.3.
Evaluasi Pengujian Black Box........................................................... 58
5.2.2 Pengujian Perbandingan Hasil Pencarian Outlier Secara Manual dengan Hasil Pencarian Outlier menggunakan Perangkat Lunak ......................................... 59 5.2.2.1.
Pencarian Outlier Secara Manual...................................................... 59
5.2.2.2.
Pencarian Outlier menggunakan Perangkat Lunak ........................... 59
5.2.2.3. Evaluasi Pengujian Perbandingan Hitung Manual dengan Hasil Perangkat Lunak ................................................................................................... 61 BAB VI ANALISIS HASIL DAN PEMBAHASAN ....................................................... 62 6.1.
DATASET .......................................................................................................... 62
6.2.
HASIL IDENTIFIKASI OUTLIER .................................................................. 62
6.2.1.
Hasil Identifikasi Outlier Dataset Jurusan IPA ......................................... 62
6.2.2.
Hasil Identifikasi Outlier Dataset Jurusan IPS ......................................... 72
6.3.
ANALISIS HASIL IDENTIFIKASI OUTLIER ............................................... 82
6.3.1.
Analisis Hasil Identifikasi Outlier Dataset Jurusan IPA .......................... 82
6.3.2.
Analisis Hasil Identifikasi Outlier Dataset Jurusan IPS ........................... 84
6.4.
KELEBIHAN DAN KEKURANGAN PERANGKAT LUNAK ..................... 85
6.4.1.
Kelebihan Perangkat Lunak ...................................................................... 85
6.4.2.
Kekurangan Perangkat Lunak ................................................................... 85
BAB VII PENUTUP ......................................................................................................... 86 7.1.
KESIMPULAN ................................................................................................. 86
7.2.
SARAN ............................................................................................................. 88
DAFTAR PUSTAKA ....................................................................................................... 90 xv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
LAMPIRAN 1 : NARASI USE CASE ............................................................................. 91 LAMPIRAN 2 : DIAGRAM AKTIVITAS ...................................................................... 95 LAMPIRAN 3 : DIAGRAM KELAS ANALISIS............................................................ 98 LAMPIRAN 4 : DIAGRAM SEQUENCE ....................................................................... 99 LAMPIRAN 5 : DIAGRAM KELAS DISAIN .............................................................. 102 LAMPIRAN 6 : ALGORITMA PER METHOD ........................................................... 103 LAMPIRAN 7 : PROSEDUR PENGUJIAN DAN KASUS UJI ................................... 110 LAMPIRAN 8 : HITUNG MANUAL PENAMBANGAN DATA ................................ 113
xvi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR TABEL
Tabel 3. 1 Nilai UN Jurusan IPA ...................................................................................... 21 Tabel 3. 2 Nilai UN Jurusan IPS ....................................................................................... 22 Tabel 3. 3 Nilai IIUN Jurusan IPA ................................................................................... 22 Tabel 3. 4 Nilai IIUN Jurusan IPS .................................................................................... 22 Tabel 3. 5 Nilai Akreditasi SMA ...................................................................................... 23 Tabel 3. 6 Atribut Data Nilai UN Jurusan IPA ................................................................. 23 Tabel 3. 7 Atribut Data Nilai UN Jurusan IPS .................................................................. 24 Tabel 3. 8 Atribut Data NIlai IIUN Jurusan IPA .............................................................. 25 Tabel 3. 9 Atribut Data Nilai IIUN Jurusan IPS ............................................................... 26 Tabel 3. 10 Atribut Data Nilai Akreditasi SMA ............................................................... 26
Tabel 4. 1 Hasil Integrasi Jurusan IPA ............................................................................. 32 Tabel 4. 2 Hasil Integrasi Jurusan IPS .............................................................................. 32 Tabel 4. 3 Hasil Seleksi Atribut Jurusan IPA ................................................................... 33 Tabel 4. 4 Hasil Seleksi Atribut Jurusan IPS .................................................................... 34
Tabel 5. 1 Implementasi Kelas Model .............................................................................. 48 Tabel 5. 2 Implementasi Kelas View................................................................................. 48 Tabel 5. 3 Spesifikasi detail kelas Hal_Utama.java .......................................................... 49 Tabel 5. 4 Spesifikasi detail kelas Hal_Proses.java .......................................................... 50 Tabel 5. 5 Spesifikasi detail frame frameDeteksi ............................................................. 53 Tabel 5. 6 Spesifikasi detail kelas Hal_Bantuan.java ....................................................... 54 Tabel 5. 7 Spesifikasi detail kelas Hal_Tentang.java ....................................................... 56 Tabel 5. 8 Implementasi kelas Controller ......................................................................... 57 Tabel 5. 9 Rencana pengujian Black Box.......................................................................... 58
Tabel 6. 1 Hasil pengujian pertama jurusan IPA .............................................................. 63 xvii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Tabel 6. 2 Hasil pengujian kedua jurusan IPA.................................................................. 64 Tabel 6. 3 Hasil pengujian ketiga jurusan IPA ................................................................. 65 Tabel 6. 4 Hasil pengujian keempat jurusan IPA .............................................................. 65 Tabel 6. 5 Hasil pengujian kelima jurusan IPA ................................................................ 66 Tabel 6. 6 Hasil pengujian keenam jurusan IPA ............................................................... 67 Tabel 6. 7 Hasil pengujian ketujuh jurusan IPA ............................................................... 68 Tabel 6. 8 Hasil pengujian kedelapan jurusan IPA ........................................................... 69 Tabel 6. 9 Hasil pengujian kesembilan jurusan IPA ......................................................... 70 Tabel 6. 10 Hasil pengujian kesepuluh jurusan IPA ......................................................... 71 Tabel 6. 11 Hasil pengujian pertama jurusan IPS ............................................................. 72 Tabel 6. 12 Hasil pengujian kedua jurusan IPS ................................................................ 73 Tabel 6. 13 Hasil pengujian ketiga jurusan IPS ................................................................ 74 Tabel 6. 14 Hasil pengujian keempat jurusan IPS ............................................................ 75 Tabel 6. 15 Hasil pengujian kelima jurusan IPS ............................................................... 76 Tabel 6. 16 Hasil pengujian keenam jurusan IPS ............................................................. 77 Tabel 6. 17 Hasil pengujian ketujuh jurusan IPS .............................................................. 78 Tabel 6. 18 Hasil pengujian kedelapan jurusan IPS .......................................................... 79 Tabel 6. 19 Hasil pengujian kesembilan jurusan IPS ........................................................ 80 Tabel 6. 20 Hasil pengujian kesepuluh jurusan IPS .......................................................... 81 Tabel 6. 21 Hasil Identifikasi Outlier jurusan IPA ........................................................... 83 Tabel 6. 22 Hasil Identifikasi Outlier jurusan IPS ............................................................ 84
xviii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR GAMBAR
Gambar 2. 1 Asal-usul Penambangan Data ........................................................................ 9 Gambar 2. 2 Proses KDD.................................................................................................. 11 Gambar 2. 3 Ilustrasi ArrayList ........................................................................................ 19 Gambar 2. 4 Ilustrasi Matriks ........................................................................................... 19
Gambar 4. 1 Diagram Flowchart ...................................................................................... 36 Gambar 4. 2 Diagram Flowchart Deteksi Outlier ............................................................ 37 Gambar 4. 3 Diagram Use Case........................................................................................ 38 Gambar 4. 4 Perancangan Arraylist .................................................................................. 40 Gambar 4. 5 Perancangan Matriks .................................................................................... 40 Gambar 4. 6 Rancangan Antarmuka Halaman Utama ...................................................... 42 Gambar 4. 7 Rancangan Antarmuka Halaman Proses ...................................................... 43 Gambar 4. 8 Rancangan Antarmuka Frame Hasil ............................................................ 44 Gambar 4. 9 Rancangan Dialog Pilih Penyimpanan ......................................................... 45 Gambar 4. 10 Rancangan Halaman Bantuan .................................................................... 46 Gambar 4. 11 Rancangan Halaman Tentang .................................................................... 47 Gambar 5. 1 Implementasi Antarmuka Hal_Utama .......................................................... 50 Gambar 5. 2 Implementasi Antarmuka kelas Hal_Proses ................................................. 52 Gambar 5. 3 Implementasi Antarmuka frameDeteksi....................................................... 54 Gambar 5. 4 Implementasi Antarmuka Hal_Bantuan ....................................................... 55 Gambar 5. 5 Implementasi Antarmuka Hal_Tentang ....................................................... 57 Gambar 5. 6 Hasil Penambangan Data menggunakan Perangkat Lunak .......................... 60 Gambar 5. 7 Hasil Penambangan Data menggunakan Perangkat Lunak .......................... 60
xix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB I PENDAHULUAN
1.1 Latar Belakang Dewasa ini, teknologi berkembang dengan begitu pesat. Perkembangan teknologi mengakibatkan data juga ikut semakin berkembang, sehingga jumlah data semakin banyak. Data dengan ukuran yang sangat banyak muncul dari berbagai bidang, mulai dari bidang kesehatan/ forensik, bidang pendidikan, dan bidang-bidang lainnya. Namun, seringkali data yang mempunyai ukuran yang sangat besar biasanya jarang atau bahkan tidak menghasilkan suatu informasi. Semakin bertambah banyaknya data, kemungkinan besar ada beberapa/banyak data yang tidak terpakai dalam suatu analisis tertentu. Untuk itu diperlukan sebuah alat untuk menambang data yang sangat banyak yang tidak memiliki suatu informasi menjadi sebuah informasi yang berguna. Maka dari itu, data mining atau yang biasa disebut penambangan data mempunyai peran yang sangat tinggi untuk melakukan proses menambang data yang sangat banyak, sehingga dapat disimpulkan bahwa penambangan data merupakan proses dari menemukan pengetahuan atau pola yang menarik dari jumlah data yang besar/banyak (Han & Kamber, 2012). Penambangan data memiliki beberapa langkah untuk menemukan sebuah pengetahuan dari sebuah data, yang biasa disebut dengan Knowledge Discovery in Databases (KDD). Langkah-langkah tersebut yaitu data cleaning, data integration, data selection, data transformation, data mining, pattern evaluation, dan knowledge presentation. Langkah 1 sampai dengan langkah 4 merupakan proses untuk mengolah data agar data siap untuk ditambang. Kemudian, langkah data mining merupakan proses yang digunakan untuk mengekstrak pola data (Han & Kamber, 2012).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Penambangan data memiliki banyak teknik atau metode, salah satu teknik dalam penambangan data yang dikenal adalah mencari data yang tidak sesuai dengan harapan, yang biasa disebut outlier detection (Han & Kamber, 2012). Outlier merupakan sebuah pengamatan yang menyimpang begitu banyak dari pengamatan lainnya untuk membangkitkan kecurigaan bahwa hal tersebut dihasilkan oleh berbagai mekanisme (Hawkins, 1980). Pendeteksian outlier mempunyai 5 pendekatan, yaitu statistical approach, proximity-based approach, clustering-based approach, classification-based approach, dan high-dimensional data (Han & Kamber, 2012). Pada setiap pendekatan mempunyai beberapa algoritma yang bisa diterapkan untuk mengidentifikasi atau pendeteksian outlier. Salah satu contoh yaitu algoritma MixCBLOF (Mix Cluster Based Local Outlier Factor) yang merupakan salah satu algoritma dengan pendekatan clustering-based. Algoritma MixCBLOF ini merupakan pengembangan dari algoritma CBLOF (Cluster Based Local Outlier Factor) yang hanya dapat menangani outlier dengan set data yang seragam yaitu set data numerik (Maryono & Djunaidy, 2010). Namun, Maryono & Djunaidy pada tahun 2010 mengembangkan algoritma CBLOF menjadi algoritma MixCBLOF yang dapat menangani outlier dengan set data campuran atau bisa dikatakan dapat menggunakan set data numerik dan set data kategorikal. Teknik pendeteksian outlier dengan menggunakan algoritma MixCBLOF ini kemungkinan dapat diterapkan pada bidang pendidikan di Sekolah Menengah Atas (SMA). Pendidikan pada jenjang SMA memiliki data Ujian Nasional (UN) berupa nama sekolah, nilai UN, nilai Indeks Integritas Ujian Nasional (IIUN), dan Akreditasi sekolah. Nilai Ujian Nasional (UN) merupakan nilai yang dihasilkan dari Ujian Nasional yang diselenggarakan secara nasional pada sekolah-sekolah (sekolah menengah pertama, dan sekolah menengah atas), atribut nilai UN merupakan atribut numerik. Nilai Indeks Integritas Ujian Nasional (IIUN) merupakan penilaian kejujuran dalam pelaksanaan Ujian Nasional, atribut nilai IIUN merupakan atribut numerik. Nilai Akreditasi merupakan pengakuan oleh badan yang berwenang terhadap
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
sekolah-sekolah yang memenuhi syarat kebakuan dan kriteria tertentu, atribut nilai akreditasi sekolah merupakan atribut kategorikal. Maria Renia Octaviani (2015) sudah pernah melakukan penelitian mengenai outlier yang digunakan sebagai topik skripsi yaitu pendeteksian outlier pada nilai Ujian Nasional Sekolah Menengah Atas di Provinsi Daerah Istimewa Yogyakarta pada tahun ajaran 2011-2014 dengan menggunakan algoritma INFLO (Influenced Outliernes). Penelitian ini merupakan pengembangan penelitian di atas, karena pendeteksian outlier pada penelitian ini dilakukan pada nilai Ujian Nasional, nilai Indeks Integritas Ujian Nasional, dan nilai Akreditasi seluruh SMA yang ada di DIY pada tahun 2015 dengan menggunakan algoritma MixCBLOF. Pemilihan data UN SMA tahun 2015 karena pada tahun tersebut IIUN baru digunakan. Penelitian ini diharapkan dapat menghasilkan informasi atau suatu pengetahuan mengenai kejadian langka yang ada pada kasus outlier di SMA. Data UN SMA sangat menarik untuk diidentifikasi outlier karena bisa saja pada data UN tersebut memiliki karakter yang unik/ berbeda dengan yang lainnya. Misalnya seperti nilai UN yang tinggi namun memiliki nilai IIUN/ akreditasi yang rendah begitu pula sebaliknya. Hasil yang didapatkan dari penelitian ini yaitu menampilkan suatu SMA dengan data UN yang unik dengan SMA yang lainnya. Hasil dari penelitian ini dapat dianalisa lebih lanjut oleh pihak yang berwenang untuk kepentingan pendampingan dan pengembangan terhadap sekolah tersebut.
3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1.2 Rumusan Masalah Rumusan masalah pada penelitian ini adalah sebagai berikut: 1. Apakah algoritma MixCBLOF dapat mendeteksi outlier data pada nilai ujian nasional, nilai indeks integritas, dan nilai akreditasi Sekolah Menengah Atas (SMA) yang ada di Provinsi Daerah Istimewa Yogyakarta (DIY)? 2. Bagaimana karakteristik data-data atau sekolah yang diidentifikasi sebagai outlier?
1.3 Tujuan Tujuan dari penelitian ini adalah sebagai berikut: 1. Menganalisa algoritma MixCBLOF dalam mendeteksi outlier data pada nilai ujian nasional, nilai indeks integritas, dan nilai akreditasi Sekolah Menegah Atas (SMA) Provinsi Daerah Istimewa Yogyakarta (DIY). 2. Menganalisa karakteristik data-data atau sekolah yang diidentifikasi sebagai outlier.
1.4 Batasan Masalah Batasan masalah pada penelitian ini sebagai berikut: 1. Algoritma yang digunakan yaitu algoritma MixCBLOF (Mix Cluster Based Local Outlier Factor). 2. Data yang digunakan yaitu nilai Ujian Nasional, nilai Indeks Integritas, dan nilai Akreditasi selutuh Sekolah Menengah Atas (SMA) di Provinsi Daerah Istimewa Yogyakarta (DIY) pada tahun ajaran 2014/2015 yang didapatkan dari website resmi Kemendikbud.
4
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1.5 Manfaat Penelitian Manfaat dari penelitian ini adalah sebagai berikut : 1. Memberikan pengetahuan baru mengenai cara mendeteksi outlier dengan menggunakan algoritma Mix Cluster Based Local Outlier Factor (MixCBLOF). 2. Memberikan informasi mengenai data yang unik dalam nilai hasil Ujian Nasional, Indeks Integritas Ujian Nasional, dan Akreditasi Sekolah Menengah Atas (SMA).
1.6 Metodologi Penelitian Metodologi Penelitian yang digunakan dalam menyelesaikan tugas akhir ini adalah sebagai berikut : 1. Studi Pustaka Metodologi pertama yang digunakan adalah studi pustaka. Tahap ini merupakan proses pengumpulan informasi berupa metode atau algoritma yang digunakan untuk mendeteksi outlier dari berbagai referensi seperti buku, paper/ jurnal, skripsi, atau artikel-artikel lainnya yang ada di internet. Selanjutnya yaitu mempelajari dan menganalisa dari informasi yang didapat sehingga menentukan untuk memilih algoritma MixCBLOF (Mix Cluster Based Local Outlier Factor) untuk melakukan penelitian deteksi outlier pada data Ujian Nasional Sekolah Menengah Atas (SMA).
2. Teknik Knowledge Discovery in Databases (KDD). Metodologi kedua adalah teknik penambangan data yang dituliskan oleh Han et.al. (2012). Teknik KDD memiliki beberapa langkah, yaitu : a. Data Cleaning Langkah ini merupakan langkah untuk menghilangkan noise/ pengganggu dan data yang tidak konsisten. b. Data Integration Langkah ini merupakan suatu proses dimana beberapa sumber data digabungkan menjadi satu kesatuan. 5
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
c. Data Selection Langkah ini merupakan proses untuk melakukan analisis, dimana data yang relevan diambil dari database. d. Data Transformation Langkah ini merupakan proses dimana data diubah (transformasi) menjadi data yang tepat untuk ditambang sehingga dapat dilakukan proses operasi seperti penjumlahan atau penggabungan. e. Data Mining Langkah ini merupakan proses penting di mana metode cerdas yang diterapkan untuk mengekstrak pola data. f. Pattern Evaluation Langkah ini merupakan proses untuk mengidentifikasi pola-pola menarik yang menampilkan basis pengetahuan dalam suatu ukuran ketertarikan. g. Knowledge Presentation Langkah ini merupakan proses dimana teknik untuk menampilkan suatu gambaran dan representasi pengetahuan hasil tambang kepada pengguna.
1.7 Sistematika Penulisan Sistematika penulisan proposal tugas akhir sebagai berikut: a. Bab I : Pendahuluan Bab pertama ini berisi mengenai latar belakang, rumusan masalah, tujuan, batasan masalah, metodologi penelitian dan sistematika penulisan proposal tugas akhir. b. Bab II : Landasan Teori Bab kedua ini berisi mengenai penjelasan teori penambangan data yang digunakan dalam penelitian proposal tugas akhir.
6
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
c. Bab III : Metode Penelitian Bab ketiga ini berisi mengenai rencana langkah-langkah yang dilakukan dalam penelitian, termasuk bagaimana cara mendapatkan data, cara mengolah data, cara membuat alat uji, cara analisis data, cara pengujian. d. Bab IV : Pemrosesan Awal dan Perancangan Perangkat Lunak Penambangan Data Bab keempat ini berisi mengenai pemrosesan awal dalam proses Knowledge Discovery in Database (KDD). Selain itu, bab ini juga berisi mengenai perancangan perngkat lunak yang akan digunakan dalam tahap penambangan data. Perancangan perangkat lunak tersebut terditi dari perancangan umum, diagram use case, diagram aktivitas, diagram kelas, algoritma per method dan perancangan antarmuka. e. Bab V : Implementasi Penambangan Data dan Evaluasi Hasil Bab kelima ini berisi mengenai implementasi rancangan perangkat lunak penambangan data dan evaluasi hasil yang terdiri dari pengujian perangkat lunak (black box), pengujian perbandingan hitung manual dengan hasil sistem. f. Bab VI : Analisis Hasil dan Pembahasan Bab keenam ini berisi mengenai percobaan-percobaan yang dilakukan dengan variasi nilai-nilai yang dibutuhkan. Selain itu, bab ini juga berisi mengenai analisis dari percobaan yang sudah dilakukan. g. Bab VII : Penutup Bab terakhir ini menjelaskan mengenai kesimpulan yang diperoleh dari pembuatan sistem serta saran untuk pengembangan sistem dan penelitian berikutnya.
7
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB II LANDASAN TEORI
2.1 Penambangan Data 2.1.1
Pengertian Penambangan Data Menurut Tan et.al. (2006), penambangan data adalah proses menemukan suatu informasi yang berguna dari data yang besar. Teknik data mining dikerahkan untuk menjelajahi pada database yang berukuran besar untuk menemukan pola yang mungkin tetap tidak diketahui. Penambangan data juga menyediakan kemampuan untuk memprediksi hasil dari pengamatan masa depan, seperti memprediksi seorang pelanggan akan menghabiskan uang lebih dari $100 atau tidak di sebuah department store. Namun, tidak semua tugas menemukan informasi dapat dicari menggunakan penambangan data. Meskipun tugas-tugas memiliki sifat yang penting dan mungkin melibatkan penggunaan algoritma yang canggih dan struktur data, tetapi tetap mengandalkan teknik ilmu komputer tradisional dan fitur yang jelas dari data untuk membuat struktur indeks secara efisien dalam mengatur dan mengambil informasi. Meskipun demikian, teknik data mining telah digunakan untuk meningkatkan sistem pencarian informasi.
2.1.2
Asal-usul Penambangan Data Menurut Tan et.al. (2006), penambangan data mengacu pada ideide seperti pengambilan sampel, estimasi, dan pengujian hipotesis dari statistik dan algoritma pencarian, teknik pemodelan, dan teori-teori Artificial Intelligence (AI), pengenalan pola, dan machine learning. Penambangan data juga mempunyai peran pada bidnag lain, termasuk optimasi, evolutionary computing, information theory, pemrosesan sinyal, visualisasi, dan pemerolehan informasi (information retrieval).
8
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Relasi data mining dengan bidang/ area lainnya dapat digambarkan sebagai berikut :
Gambar 2. 1 Asal-usul Penambangan Data (Sumber : Han et.al, 2012)
2.1.3
Tugas-tugas Penambangan Data Menurut Tan et.al. (2006), penambangan data memiliki beberapa tugas yang menerapkan dua kategori besar yaitu metode prediktif dan metode deskriptif. Metode prediktif mempunyai tugas untuk memprediksi nilai atribut tertentu berdasarkan pada nilai-nilai atribut lainnya. Metode deskriptif mempunyai tugas untuk mendapatkan pola dari korelasi, klaster, lintasan, dan anomali yang didapatkan dari data target. Tugas penambangan data mempunyai empat tugas, yaitu : a. Analisis Prediktif Salah satu tugas penambangan data ini mengacu pada tugas yang membangun model pada variabel target sebagai fungsi dari variabel penjelas. Analisis prediktif dibagi menjadi dua tipe yaitu klasifikasi dan regresi. Klasifikasi merupakan tipe prediktif yang digunakan untuk variabel sasaran diskrit. Regresi merupakan tipe prediktif yang digunakan untuk variabel target yang bersifat terus-menerus (kontinyu). Contoh klasifikasi yaitu memprediksi apakah pengguna Web akan melakukan pembelian di suatu toko online. Hal tersebut 9
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
termasuk klasifikasi karena variabel target bernilai biner, ya atau tidak. Contoh regresi yaitu prediksi harga masa depan suatu saham. Hal tersebut termasuk contoh regresi karena harga merupakan atribut bernilai kontinyu. Namun, pencapaian kedua tipe prediktif tersebut adalah untuk mempelajari model yang meminimalkan kesalahan anatara prediksi dengan nilai kebernarannya dari variabel target. b. Analisis Asosiasi Pada tugas penambangan data ini digunakan untuk menemukan hubungan yang terkait dari suatu transaksi yang terjadi pada item berdasarkan item lainnya. c. Analisis Klaster Pada tugas penambangan data ini digunakan untuk menemukan suatu kelompok obyek yang terkait erat satu sama lain sehingga termasuk ke dalam klaster yang sama. d. Deteksi Anomali Deteksi anomali merupakan tugas penambangan data yang digunakan
untuk
mengidentifikasi
pengamatan
yang
karakteristiknya sangat berbeda dari sisa data. Pengamatan tersebut dikenal sebagai anomali atau outlier. Tujuan algoritma deteksi anomali/ outlier adalah untuk menemukan anomali yang nyata dan menghindari obyek yang normal tetapi diidentifikasi sebagai anomali. Oleh karena itu, deteksi anomali yang baik harus memiliki tingkat deteksi yang tinggi dan tingkat kesalahan yang rendah. Aplikasi deteksi anomali seperti deteksi penipuan, gangguan jaringan, gangguan ekosistem, dll.
2.1.4
Knowledge Discovery in Databases (KDD) Menurut Han et.al. (2012), istilah KDD (Knowledge Discovery in Databases) seringkali dianggap sinonim dengan penambangan data. KDD merupakan sebuah proses mengubah data mentah menjadi suatu 10
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
informasi/ pengetahuan yang berguna. KDD memiliki beberapa langkah yaitu data cleaning, data integration, data selection, data transformation, data mining, pattern evaluation, dan knowledge presentation.
Gambar 2. 2 Proses KDD
(Sumber : Han et.al, 2012) 11
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1. Data Cleaning Langkah ini merupakan langkah untuk menghilangkan noise/ pengganggu dan data yang tidak konsisten. 2. Data Integration Langkah ini merupakan suatu proses dimana beberapa sumber data digabungkan menjadi satu kesatuan. 3. Data Selection Langkah ini merupakan proses untuk melakukan analisis, dimana data yang relevan diambil dari database. 4. Data Transformation Langkah
ini
merupakan
proses
dimana
data
diubah
(transformasi) menjadi data yang tepat untuk ditambang sehingga dapat dilakukan proses operasi seperti penjumlahan atau penggabungan. 5. Data Mining Langkah ini merupakan proses penting di mana metode cerdas yang diterapkan untuk mengekstrak pola data. 6. Pattern Evaluation Langkah ini merupakan proses untuk mengidentifikasi polapola menarik yang menampilkan basis pengetahuan dalam suatu ukuran ketertarikan. 7. Knowledge Presentation Langkah
ini
merupakan
proses
dimana
teknik
untuk
menampilkan suatu gambaran dan representasi pengetahuan hasil tambang kepada pengguna.
2.2 Outlier 2.2.1
Pengertian Outlier Ada beberapa pengertian outlier dari beberapa sumber. Menurut Han et.al. (2012), outlier adalah objek data yang menyimpang secara signifikan dari sisa data, seolah-olah itu dihasilkan oleh mekanisme 12
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
yang
berbeda.
Menurut
Hawkins
(1980),
outlier
merupakan
pengamatan yang berbeda dari pengamatan lainnya sehingga menimbulkan kecurigaan bahwa hal itu dihasilkan oleh berbagai mekanisme.
2.2.2
Pendekatan Deteksi Outlier Menurut Han et.al. (2012), pendeteksian outlier terdapat beberapa pendekatan, antara lain statistical methods, proximity-based approach, clustering-based approach, classficication-based approach, dan highdimensional data. Pendekatan statistical methods atau biasa dikenal sebagai metode berbasis
model
membuat
asumsi
mengenai
normalitas
data.
Pendekatan ini dianggap bahwa obyek data normal dihasilkan oleh model statistik, sedangkan data yang tidak mengikuti model dianggap sebagai outlier. Efektivitas statistical methods sangat bergantung pada asumsi apakah model statistik yang dibuat selalu berlaku untuk data yang diberikan. Pendekatan proximity-based mengasumsikan bahwa sebuah obyek dikatakan sebagai outlier jika memiliki perbedaan yang signifikan dengan tetangga terdekatnya pada set data yang sama. Efektivitas metode berbasis proximity sangat bergantung pada jarak atau ukuran yang digunakan. Metode berbasis proximity ini sering mengalami kesulitan dalam mendeteksi outlier jika sebuah obyek yang dikatakan sebagai outlier memiliki kedekatan satu sama lain. Pendekatan proximity-based ini memiliki dua jenis utama deteksi outlier, yaitu distance-based, dan density-based. Pendekatan clustering-based mengasumsikan bahwa obyek yang bersifat normal tergabung dalam kelompok besar (large cluster), sedangkan obyek yang dikatakan sebagai outlier tidak tergabung dalam kelompok.
13
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Pendekatan
classification-based
mengasumsikan
bahwa
pendeteksian outlier menggunakan pendekatan ini dapat digunakan jika set data training dan label kelas tersedia. Ide umum dari metode deteksi outlier berbasis classification adalah menentukan model klasifikasi yang dapat membedakan data normal dan outlier. Metode outlier basis classification ini sering menggunakan satu kelas sebagai label untuk menggambarkan data berupa normal atau outlier. Pendekatan high-dimensional data, memiliki beberapa contoh algoritma yaitu Angle-Based Outlier Degree/ ABOD (Kriegel et.al. 2008), Grid-Based Subspace Outlier Detection (Aggarwal & Yu, 2000), dan Subspace Outlier Degree/ SOD (Kriegel et.al., 2009).
2.3 MixCBLOF (Mix Cluster Based Local Outlier Factor) Deteksi outlier memiliki ketertarikan tersendiri daripada deteksi pada umumnya, karena pendeteksian outlier ini memiliki informasi yang mendasari sebuah perilaku tidak biasanya atau berbeda daripada yang lainnya. Pada penelitian ini mendeteksi outlier menggunakan algoritma Mix Cluster Based Local Outlier Factor (MixCBLOF) yang dikemukakan oleh Maryono & Djunaidy pada tahun 2010. Algoritma ini tergolong pada pendekatan clustering-based karena algoritma ini perlu menggunakan proses cluster untuk penentuan outlier. Algoritma ini merupakan perpaduan dari dua algoritma yaitu Cluster Based Local Outlier Factor (CBLOF) dengan Numerical Cluster Based Local Outlier Factor (NCBLOF). Algoritma ini mengusulkan deteksi outlier menggunakan data campuran berupa data kategorikal dan data numerik. Data kategorikal diolah menggunakan algoritma CBLOF, sedangkan untuk data numerik diolah menggunakan algoritma NCBLOF.
2.3.1 CBLOF (Cluster Based Local Outlier Factor) Menurut He et.al (2003), untuk mengidentifikasi signifikansi data dari definisi outlier perlu mendefinisikan setiap obyek dengan sebuah 14
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
derajat yang disebut dengan CBLOF (Cluster Based Local Outlier Factor) yang diukur dengan ukuran klaster di mana ia berada dan jaraknya terhadap klaster terdekat.
Definisi 1 : Misalkan A1, A2, ..., Am adalah himpunan atribut dengan domain D1, D2, ..., Dm. Set data D terdiri dari record/ obyeknya, sedangkan transaksi t : t ϵ D. Hasil klasterisasi pada D dinotasikan sebagai C= {C1, C2, ..., Ck} dimana Ci ∩ Cj = Ø dan C1 ∪ C2 ∪... ∪ Ck = D, dengan k adalah jumlah klaster.
Definisi 2 : Misalkan C= {C1, C2, ..., Ck} adalah himpunan klaster pada set data dengan urutan ukuran klaster adalah |C1| ≥ |C2| ≥ ... ≥ |Ck|. Ditetapkan tiga parameter numerik α, β, dan b. Didefinisikan b sebagai batas antara klaster besar dan kecil jika memenuhi salah satu formula berikut: (| |
| |
|
|)
| | | |
........................... (2.1) | |
........................... (2.2)
Didefinisikan himpunan klaster besar (large cluster) sebagai LC = {Ci, i ≤ b} dan klaster kecil (small cluster) didefinisikan dengan SC = {Ci, i > b}. Definisi 2 memberikan ukuran kuantitatif untuk membedakan klaster besar dan klaster kecil. Rumus (2.1) menunjukkan bahwa sebagian besar data bukan outlier. Oleh karena itu klaster besar mempunyai porsi yang jauh sangat besar. Contohnya jika α diberikan 90% maka artinya klaster besar memuat kurang lebih 90% dari total obyek data pada set data. Rumus (2.2) menunjukkan fakta bahwa klaster besar dan klaster kecil harus memiliki perbedaan yang signifikan. Jika diberikan 15
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
β sebesar 5, maka artinya setiap klaster besar minimal 5 kali lebih besar dari klaster kecil.
Definisi 3 : Misalkan C= {C1, C2, ..., Ck} adalah himpunan klaster dengan ukuran |C1| ≥ |C2| ≥ ...≥ |Ck|. Didefinisikan LC dan SC sebagimana pada Definisi 2. Untuk sebarang record t, didefinisikan sebagaimana persamaan (2.3).
( )
{
| |
(
| | (
( (
))
........ (2.3)
))
2.3.2 NCBLOF (Numerical Cluster Based Local Outlier Factor) Menurut Maryono dan Djunaidy (2010), ada beberapa cara untuk mengukur jarak sebuah obyek ke sebuah klaster. Caranya adalah mengukur jarak sebuah obyek terhadap centroid terdekat atau dapat juga dengan mengukur jarak relatif obyek dengan centroid terdekat. Jarak relatif (relative distance) adalah rasio jarak obyek terhadap centroid dibagi dengan jarak rata-rata semua titik terhadap centroid klaster di mana ia berada. Komponen pada CBLOF mengenai kemiripan terhadap klaster terdekat juga untuk mendefinisikan NCBLOF sebagai berikut:
| |
(
)
(
( ) {
| |
( )) (
......... (2.4)
)
Rumus NCBLOF pada persamaan (2.4), didefinisikan dengan menyesuaikan interpretasi derajat persamaan (2.3).
16
outlier pada CBLOF pada
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2.3.3 Algoritma MixCBLOF Langkah untuk mencari outlier menggunakan algoritma MixCBLOF adalah sebagai berikut : 1. Bagi set data campuran menjadi dua bagian, set data numerik, D1, dan set data kategorikal, D2. 2. Klasterisasi pada subset data numerik D1 sehingga diperoleh sejumlah klaster C11, C12, ..., C1p dengan ukuran berturut-turut |C11| ≥ |C12| ≥ ... ≥ |C1p| Tentukan klaster besar (LC) dan klaster kecil (SC) menggunakan Definisi 2 pada halaman 15. 3. Terapkan deteksi outlier berbasis klaster menggunakan atribut numerik terhadap obyek-obyek dalam klaster pada langkah 2 menggunakan teknik deteksi outlier berbasis klaster seperti persamaan (2.4).
| |
(
)
(
( ) {
( ))
| |
(
)
4. Terapkan deteksi outlier berbasis klaster menggunakan atribut kategorikal terhadap obyek-obyek dalam klaster pada langkah 2 menggunakan CBLOF sebagaimana persamaan (2.3).
( )
{
| |
(
| | (
( (
)) ))
5. Susun derajat outlier pada langkah 3 dan 4 dalam matrik keputusan A=[anm]. [
]
Didefinisikan n sebagai jumlah data dan m sebagai jumlah atribut. 17
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Kemudian, matriks keputusan tersebut dinormalisasi menjadi sebagai berikut : [
]
Didefinisikan n sebagai jumlah data dan m sebagai jumlah atribut. 6. Lakukan pembobotan secara default (bobot sama) atau dengan metode Entropy. a. Hitung nilai Entropy ej dan derajat divergensi fj. ........................................ (2.5)
.......................................................... (2.6) b. Hitung bobot tiap kolom/ atribut
.................................................... (2.6)
7. Gabungkan bobot outlier tiap obyek t1, t2, .., tn pada langkah 6 dengan fungsi agregat untuk mendapatkan derajat outlier akhir OF dari sebuah obyek ti OF(ti ) = . (x1i, x2i, x3i, x4i). (
)
............. (2.7)
2.4 Struktur Data 2.4.1 ArrayList Dalam pengembangan sebuah sistem atau aplikasi diperlukan adanya perancangan sebuah struktur data, perancangan struktur data ini memiliki fungsi sebagai gambaran sebuah data diolah dan disimpan di dalam program/ sistem. Pada penelitian ini menggunakan konsep Arraylist sebagai tempat penyimpanan data yang dinamis, karena sistem deteksi outlier ini tidak
18
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
membutuhkan suatu tempat penyimpanan yang terlalu banyak dan tidak menghabiskan waktu yang terlalu lama pula saat dijalankan. Arraylist merupakan sebuah kelas yang dapat melakukan penyimpanan data berupa list objek berbentuk array dengan ukurannya dapat berubah secara dinamis sesuai dengan jumlah data yang dimasukkan. Ilustrasi konsep Arraylist dapat dilihat pada gambar 2.3.
Gambar 2. 3 Ilustrasi ArrayList
2.4.2
Matriks Matriks merupakan struktur data yang digunakan sebagai tempat
penyimpanan pada memori internal dengan memakai dua buah indeks array yang sering biasa disebut dengan baris dan kolom. Konsep umum untuk array yang dapat berlaku untuk matriks yaitu kumpulan elemen memiliki tipe yang sama, dapat berupa tipe dasar integer, string, char, boolean, dll. Ilustrasi konsep matriks dapat dilihat pada gambar 2.4 berikut.
Gambar 2. 4 Ilustrasi Matriks
19
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Dari ilustrasi di atas adalah konsep matriks dengan ukuran 4x3, artinya memiliki 4 baris dan 3 kolom. Dalam konsep array dapat dituliskan seperti matrix = new int[4][3] dengan keterangan sebagai berikut : matrix[0][0] = v1
matrix[2][0] = v7
matrix[0][1] = v2
matrix[2][1] = v8
matrix[0][3] = v3
matrix[2][2] = v9
matrix[1][0] = v4
matrix[3][0] = v10
matrix[1][1] = v5
matrix[3][1] = v11
matrix[1][2] = v6
matrix[3][2] = v12
20
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB III METODOLOGI PENELITIAN
3.1 Bahan Riset/ Data Data yang digunakan untuk melakukan penelitian berupa file berekstensi .pdf dan .xls yang diperoleh dari 3 sumber. Sumber yang pertama dari website milik
Kementerian
Pendidikan
dan
Kebudayaan
http://litbang.kemdikbud.go.id/index.php/un. Sumber yang kedua dari website milik
Kementerian
Pendidikan
dan
Kebudayaan
http://puspendik.kemdikbud.go.id/hasil-un/. Sumber yang ketiga dari webiste Badan
Akreditasi
Nasional
Sekolah/
Madrasah
http://bansm.or.id/sekolah/sudah_akreditasi/4. Data yang didapatkan dari 3 sumber tersebut merupakan data nilai Ujian Nasional (UN) per mata pelajaran dan rerata nilai UN, nilai Indeks Integritas Ujian Nasional (IIUN) SMA, dan nilai Akreditasi sekolah pada tahun 2015 dengan jumlah data 160 SMA di DIY. Pada penelitian ini hanya untuk SMA jurusan Ilmu Pengetahuan Alam (IPA) dan Ilmu Pengetahuan Sosial (IPS).
Tabel 3. 1 Nilai UN Jurusan IPA
21
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Tabel 3. 2 Nilai UN Jurusan IPS
Tabel 3. 3 Nilai IIUN Jurusan IPA
Gambar 3.3 Nilai IIUN IPA DIY
Gambar 3.5 Nilai Akreditasi Sekolah di DIY
Tabel 3. 4 Nilai IIUN Jurusan IPS
22
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Tabel 3. 5 Nilai Akreditasi SMA
Tabel 3. 6 Atribut Data Nilai UN Jurusan IPA
Keterangan
Nama Atribut KODE_SEKOLAH
Kode Sekolah
NAMA_SEKOLAH
Nama Sekolah
STS_SEK
Status Sekolah (Negeri/ Swasta)
JUMLAH_PESERTA
Jumlah siswa mengikuti UN
BHS_INDO
Nilai rata-rata UN mata pelajaran Bahasa Indonesia
BHS_INGGRIS
Nilai rata-rata UN mata pelajaran Bahasa Inggris
MTK
Nilai rata-rata UN mata pelajaran Matematika
FISIKA
Nilai rata-rata UN mata pelajaran Fisika
23
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
KIMIA
Nilai rata-rata UN mata pelajaran Kimia
BIOLOGI
Nilai rata-rata UN mata pelajaran Biologi
TOTAL
Jumlah nilai rata-rata UN
RANK
Nilai ranking sekolah
Tabel 3. 7 Atribut Data Nilai UN Jurusan IPS
Keterangan
Nama Atribut KODE_SEKOLAH
Kode Sekolah
NAMA_SEKOLAH
Nama Sekolah
STS_SEK
Status Sekolah (Negeri/ Swasta)
JUMLAH_PESERTA
Jumlah siswa mengikuti UN Nilai rata-rata UN mata pelajaran
BHS_INDO
Bahasa Indonesia Nilai rata-rata UN mata pelajaran
BHS_INGGRIS
Bahasa Inggris Nilai rata-rata UN mata pelajaran
MTK
Matematika Nilai rata-rata UN mata pelajaran
EKONOMI
Ekonomi
SOSIO
Nilai rata-rata UN mata pelajaran 24
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Sosiologi Nilai rata-rata UN mata pelajaran GEO
Geografi
TOTAL
Jumlah nilai rata-rata UN
RANK
Nilai ranking sekolah
Tabel 3. 8 Atribut Data NIlai IIUN Jurusan IPA
Keterangan
Nama Atribut KODE_SEKOLAH
Kode Sekolah
NPSN
Nomor Pokok Sekolah Nasional
NAMA_SEKOLAH
Nama Sekolah
STS_SEK
Status sekolah (Negeri/ Swasta)
JUMLAH_PESERTA
Jumlah siswa mengikuti UN
RERATA_IPA
Nilai rata-rata UN jurusan IPA
IIUN_IPA
Nilai IIUN jurusan IPA
25
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Tabel 3. 9 Atribut Data Nilai IIUN Jurusan IPS
Keterangan
Nama Atribut KODE_SEKOLAH
Kode Sekolah
NPSN
Nomor Pokok Sekolah Nasional
NAMA_SEKOLAH
Nama Sekolah
STS_SEK
Status sekolah (Negeri/ Swasta)
JUMLAH_PESERTA
Jumlah siswa mengikuti UN
RERATA_IPS
Nilai rata-rata UN jurusan IPS
IIUN_IPS
Nilai IIUN jurusan IPS
Tabel 3. 10 Atribut Data Nilai Akreditasi SMA
Nama Atribut
Keterangan
NAMA_SEKOLAH
Nama Sekolah
NPSN
Nomor Pokok Sekolah Nasional
TIPE_SEKOLAH
Tipe Sekolah (Sekolah/ Madrasah)
STS_SEK
Status Sekolah (Negeri/ Swasta)
PROVINSI
Provinsi Sekolah
KABUPATEN
Kabupaten Sekolah
NILAI
Nilai Akreditasi dalam bentuk nominal/ angka 26
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PERINGKAT
Nilai Akreditasi dalam bentuk huruf
3.2 Peralatan Penelitian Penelitian dilakukan menggunakan spesifikasi perangkat sebagai berikut : 1. Spesifikasi software a. Netbeans versi 8.0 b. OS Windows 7 64 bit
2. Spesifikasi hardware (Notebook/ Laptop) a. Processor AMD A6-4400M APU 2,7 GHz b. Ram 4 GB c. VGA AMD Radeon HD 7520G d. Layar 14 inch e. Harddisk 500 GB
3.3 Tahap-tahap Penelitian 1. Studi Kasus Nilai Ujian Nasional merupakan nilai yang dihasilkan dari Ujian Nasional untuk mengukur standar pendidikan yang ada di Indonesia. Nilai Indeks Integritas
Ujian
Nasional
merupakan
penilaian
kejujuran
dalam
pelaksanaan Ujian Nasional. Nilai Akreditasi merupakan pengakuan oleh badan berwenang terhadap sekolah-sekolah yang memiliki syarat kebakuan dan kriteria tertentu. Demi menyelenggarakan pendampingan dan pengembangan suatu sekolah berdasarkan kriteria nilai Ujian Nasional, nilai Indeks Integritas, dan nilai Akreditasi, diperlukan suatu informasi mengenai sekolah-sekolah yang memiliki karakteristik berbeda dibandingkan dengan sekolah lainnya. Untuk mendapatkan informasi tersebut, maka digunakanlah pendeteksian outlier dari kumpulan sekolah dengan data yang sudah disediakan, berdasarkan ketiga nilai di atas. 27
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Penelitian ini diharapkan dapat menemukan/ menghasilkan informasi mengenai sekolah yang memiliki karakter berbeda dengan yang lainnya, sehingga dapat menyelenggarakan pendampingan dan pengembangan terhadap sekolah tersebut.
2. Penelitian Pustaka Pada tahap ini, dilakukan penelitian pustaka digunakan untuk memperoleh informasi dan menggali teori mengenai teknik penambangan data. Dalam penelitian ini penulis mempelajari referensi-referensi yang berkaitan dengan teknik penambangan data deteksi outlier khususnya algoritma MixCBLOF dan referensi lainnya yang berguna bagi sistem yang akan dibangun.
3. Knowledge Discovery in Database (KDD) Pada tahap penelitian ini dilakukan jika tahap-tahap sebelumnya sudah dilakukan. Oleh karena itu, tahap ini sangat diperlukan karena penelitian ini berada pada bidang penambangan data sehingga harus menggunakan teknik KDD (Knowledge Discovery in Database). Proses KDD terdiri dari data cleaning, data integration, data transformation, data mining, pattern evaluation, dan knowledge presentation. Pada tahap awal dilakukan data cleaning dan data integration pada data SMA se-DIY sehingga data tersebut siap untuk ditambang. Proses awal ini dilakukan secara manual menggunakan alat bantu Microsoft Excel. Kemudian untuk proses selanjutnya yaitu data selection, data transformation, dan data mining dilakukan di dalam perangkat lunak yang dibuat. Kemudian proses pattern evaluation dan knowledge presentation dilakukan setelah perangkat lunak selesai dibangun karena kedua proses ini membutuhkan hasil dari alat uji tersebut.
28
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4. Pengembangan Perangkat Lunak a. Metode Pengembangan Sistem Metode yang digunakan penulis untuk melakukan pengembangan sistem menggunakan metode waterfall. Metode waterfall merupakan salah satu metode yang populer karena tidak asing untuk didengar oleh oleh kalangan pengembang sistem. Menurut Kristanto (2004), metode waterfall ini diperkenalkan oleh Winston Royce pada tahun 1970. Inti dari metode ini yaitu model klasik yang sederhana dengan aliran sistem yang linier. Langkah-langkah metode waterfall sebagai berikut : 1. Requirement dan Spesification Pada tahapan ini merupakan analisa kebutuhan sistem yang diperlukan
dalam
pengembangan
sistem
dengan
cara
mengumpulkan data. Selanjutnya, jika analisa kebutuhan sistem sudah terpenuhi, kemudian merencanakan jadwal pengembangan software. 2. Design Tahap desain sistem membagi kebutuhan-kebutuhan menjasi sistem perangkat lunak atau perangkat keras. Proses tersebut menghasilkan sebuah arsitektur sistem keseluruhan. Desain perangkat lunak termasuk menghasilkan fungsi sistem perangkat lunak dalam bentuk yang mungkin ditransformasi ke dalam satu atau lebih program yang dapat dijalankan. Tahapan ini merupakan tahap untuk menentukan alur software sampai pada tahap algoritma yang detil. 3. Implementation Tahap ini desain perangkat lunak disadari sebagai sebuah program lengkap atau unit program. Desain perangkat lunak yang sudah dibuat kemudian diubah ke dalam bentuk kode-kode program. Diakhir tahap ini, tiap modul ditesting tanpa diintegrasikan. 4. Integration
29
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Unit program diintegrasikan dan diuji menjadi sistem yang lengkap untuk meyakinkan bahwa persyaratan perangkat lunak telah dipenuhi. 5. Operation mode & retirement Tahap ini adalah tahap yang terpanjang. Sistem dipasang dan digunakan. Pemeliharaan termasuk pembetulan kesalahan yang tidak
ditemukan
pada
langkah
sebelumnya.
Perbaikan
implemenetasi unit sistem dan peningkatan jasa sistem sebagai kebutuhan baru ditemukan. b. Pengujian Pengujian dilakukan dengan alat uji yang sudah dibuat pada tahap sebelumnya. Metode untuk pengujian sistem ini adalah metode pengujian black box. Pengujian black box berisi pengujian dengan pengisian data secara benar. Hasil yang diperoleh dari alat uji kemudian dibandingkan dengan hasil penghitungan manual untuk memperoleh validasi dari alat pengujian tersebut.
5. Analisis dan Pembuatan Laporan Analisis yang dilakukan adalah analisis hasil dari perangkat lunak yang dibuat berdasarkan penerapan algoritma MixCBLOF. Analisis yang dimaksud adalah melakukan analisis dari pola yang terbentuk, artinya mendapatkan nilai masukan k (jumlah kluster), nilai α dan β untuk mendapatkan hasil outlier yang optimal dan sesuai dengan data dari dinas pendidikan provinsi Yogyakarta. Hasil dari semua pengujian tersebut disusun ke dalam sebuah laporan tugas akhir.
30
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB IV
PEMROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK PENAMBANGAN DATA
4.1 PEMROSESAN AWAL 4.1.1
Pembersihan Data Pada proses pembersihan data ini adalah membersihkan data berupa noise (gangguan) seperti nilai yang kosong pada tabel data. Data yang ada noise pada beberapa sekolah berupa nilai IIUN yang tidak teridentifikasi atau sudah melakukan UNBK (Ujian Nasional Basis Komputer), sekolah dengan tipe madrasah aliyah, dan beberapa sekolah yang tidak terakreditasi. Maka dari itu, 54 sekolah dari jurusan IPA dan 78 sekolah dari jurusan IPS dihapus dari tabel data.
4.1.2 Integrasi Data Proses integrasi data merupakan proses untuk melakukan penggabungan data dari berbagai sumber data yang didapatkan. Data yang didapatkan berupa 3 file untuk setiap jurusan (IPA/IPS) berupa data nilai Ujian Nasional, nilai Indeks Integritas Ujian Nasional, dan nilai Akreditasi SMA tahun 2014/2015. Pada tahap ini dilakukan penggabungan dari 3 file tersebut menjadi 1 file berupa tabel data untuk setiap jurusan, sehingga didapatkan 2 file yang terdiri dari 1 file jurusan IPA (lihat Tabel 4.1) dan 1 file jurusan IPS (lihat Tabel 4.2).
31
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Tabel 4. 1 Hasil Integrasi Jurusan IPA
Tabel 4. 2 Hasil Integrasi Jurusan IPS
4.1.3
Seleksi Data Proses seleksi data merupakan seleksi atribut yang akan digunakan
dalam proses penambangan data. Proses ini dilakukan dengan memilih atribut yang relevan untuk digunakan dalam penelitian, dan menghapus atribut yang tidak relevan. Atribut yang dihapus dari data nilai Ujian Nasional SMA jurusan IPA tahun 2014/2015 adalah atribut STS_SEK, JUMLAH_PESERTA, dan RANK, sehingga atribut yang digunakan 32
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
yaitu
KODE_SEKOLAH,
NAMA_SEKOLAH,
BHS_INDO,
BHS_INGGRIS, MTK, FISIKA, KIMIA, BIOLOGI, dan TOTAL. Atribut yang dihapus dari data nilai Indeks Integritas Ujian Nasional SMA jurusan IPA tahun 2014/2015 adalah NPSN, STS_SEK, dan JUMLAH_PESERTA, KODE_SEKOLAH,
sehingga
atribut
NAMA_SEKOLAH,
yang
digunakan
RERATA_IPA,
dan
IIUN_IPA. Pada atribut yang dihapus dari data nilai Ujian Nasional SMA jurusan IPS tahun 2014/2015 sama dengan atribut yang dihapus dari data nilai Ujian Nasional SMA jurusan IPA tahun 2014/2015, sehingga
atribut
yang
digunakan
yaitu
KODE_SEKOLAH,
NAMA_SEKOLAH, BHS_INDO, BHS_INGGRIS, MTK, EKONOMI, SOSIO, GEO, dan TOTAL. Pada atribut yang dihapus dari data nilai Indeks Integritas Ujian Nasional SMA jurusan IPS tahun 2014/2015 sama dengan atribut yang dihapus dari data nilai Indeks Integritas Ujian Nasional SMA jurusan IPA tahun 2014/2015, sehingga atribut yang digunakan
yaitu
KODE_SEKOLAH,
NAMA_SEKOLAH,
RERATA_IPS, dan IIUN_IPS. Atribut yang dihapus dari data nilai Akreditasi SMA tahun 2014/2015 adalah NPSN, TIPE_SEKOLAH, STS_SEK, PROVINSI, KABUPATEN, dan NILAI sehingga atribut yang digunakan yaitu NAMA_SEKOLAH dan PERINGKAT. Atribut yang digunakan kemudian digabungkan menjadi 1 file, sehingga atribut yang digunakan untuk SMA jurusan IPA dan IPS dapat dilihat pada tabel 4.3 dan tabel 4.4.
Tabel 4. 3 Hasil Seleksi Atribut Jurusan IPA
Nama Atribut
Keterangan
KODE_SEKOLAH
Kode Sekolah
NAMA_SEKOLAH
Nama Sekolah
BHS_INDO
Nilai rata-rata UN mata pelajaran 33
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Bahasa Indonesia BHS_INGGRIS
Nilai rata-rata UN mata pelajaran Bahasa Inggris
MTK
Nilai rata-rata UN mata pelajaran Matematika
FISIKA
Nilai rata-rata UN mata pelajaran Fisika
KIMIA
Nilai rata-rata UN mata pelajaran Kimia
BIOLOGI
Nilai rata-rata UN mata pelajaran Biologi
TOTAL
Jumlah nilai UN jurusan IPA
RERATA_IPA
Nilai rata-rata UN jurusan IPA
IIUN_IPA
Nilai IIUN jurusan IPA
AKREDITASI
Nilai Akreditasi SMA dalam bentuk huruf
Tabel 4. 4 Hasil Seleksi Atribut Jurusan IPS
Nama Atribut
Keterangan
KODE_SEKOLAH
Kode Sekolah
NAMA_SEKOLAH
Nama Sekolah
BHS_INDO
Nilai rata-rata UN mata pelajaran Bahasa Indonesia
BHS_INGGRIS
Nilai rata-rata UN mata pelajaran Bahasa Inggris
MTK
Nilai rata-rata UN mata pelajaran Matematika
EKONOMI
Nilai rata-rata UN mata pelajaran Ekonomi
SOSIOLOGI
Nilai rata-rata UN mata pelajaran Sosiologi 34
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
GEOGRAFI
Nilai rata-rata UN mata pelajaran Geografi
TOTAL
Jumlah nilai UN jurusan IPS
RERATA_IPS
Nilai rata-rata UN jurusan IPS
IIUN_IPS
Nilai IIUN jurusan IPS
AKREDITASI
Nilai Akreditasi SMA dalam bentuk huruf
4.1.4
Transformasi Data Pada transformasi data ini terdapat tahapan pengubahan pada data
akreditasi dari karakter menjadi numerik tetapi tidak menghilangkan sifat aslinya sebagai atribut nominal. Atribut akreditasi memiliki data berjenis karakter yaitu A, B, dan C yang diubah menjadi data numerik A=1, B=2, C=3. Proses pengubahan dapat dilakukan secara bebas, namun pada penelitian ini menggunakan ketentuan A=1, B=2, dan C=3.
4.2 PERANCANGAN PERANGKAT LUNAK PENAMBANGAN DATA 4.2.1
Perancangan Umum
4.2.1.1
Input Sistem Data input dari sistem yang dibangun berasal dari file berekstensi
.xls yang dapat dipilih langsung oleh pengguna (user). Sebelum melakukan proses deteksi outlier, pengguna diharuskan mengisi nilai b, alfa, dan beta terlebih dahulu pada textfield yang sudah disediakan.
35
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4.2.1.2
Proses Sistem Proses sistem yang akan dibangun terdiri dari beberapa tahapan
untuk dapat menemukan aturan yang berfungsi untuk menemukan data yang dianggap sebagai outlier dari suatu sekolah. Proses tersebut yaitu : 1. Menentukan nilai b, alfa, dan beta yang berfungsi dalam menentukan klaster besar (LC) dan klaster kecil (SC) 2. Proses clustering untuk menemukan anggota dan jumlah anggota dari setiap cluster 3. Proses deteksi outlier untuk menemukan data yang unik dengan derajat outlier per objek. Proses umum yang terjadi pada sistem dapat digambarkan dalam diagram flowchart yang digambarkan pada Gambar 4.1.
Gambar 4. 1 Diagram Flowchart 36
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Proses dari Deteksi Outlier dapat digambarkan dalam bentuk diagram flowchart yang digambarkan pada Gambar 4.2 berikut.
Gambar 4. 2 Diagram Flowchart Deteksi Outlier
4.2.1.3
Output Sistem Sistem akan memberikan keluaran atau output berupa nama
sekolah yang diidentifikasi sebagai outlier beserta nilai derajat outlier per objek yang sesuai dengan nilai b, alfa, dan beta. Selain itu sistem juga akan menampilkan daftar-daftar sekolah yang teridentifikasi sebagai outlier sebanyak nilai threshold yang dimasukkan oleh pengguna.
4.2.2
Diagram Use Case Diagram use case merupakan sebuah gambaran sistem yang dilihat dari sudut pandang pengguna (user). Sebuah sistem yang akan terbentuk selalu memiliki interaksi
antara pengguna 37
dengan sistem
yang
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
digambarkan melalui diagram use case. Diagram use case dapat dilihat pada Gambar 4.2 berikut.
Pilih file input
Deteksi menggunakan Algoritma MixCBLOF
User Simpan data hasil
Gambar 4. 3 Diagram Use Case
38
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Pengguna dalam sistem yang akan dibangun ini hanya terdapat satu pengguna diinisialisasikan dengan “User”. Pengguna dalam sistem ini memiliki 3 interaksi terhadap sistem yaitu memilih file data .xls, deteksi menggunakan algoritma mixcblof, dan menyimpan hasil data. Ketiga interaksi/ aktifitas yang dilakukan pengguna merupakan interaksi saling berkaitan sehingga perlu dilakukan secara berurutan. Diagram use case memiliki narasi dari setiap use case. Narasi tersebut terlampir pada lampiran 1. 4.2.3
Diagram Aktivitas Diagram aktivitas merupakan aktivitas dari use case memilih file data .xls, deteksi menggunakan algoritma mixcblof, dan menyimpan hasil deteksi outlier. Diagram aktivitas memiliki tiga diagram. Diagram aktivitas tersebut terlampir pada lampiran 2.
4.2.4
Diagram Kelas Analisis Diagram kelas analisis terlampir pada lampiran 3.
4.2.5
Diagram Sekuen Pada diagram sekuen ini memiliki tiga diagram sequence yaitu memilih file data bertipe .xls, deteksi menggunakan algoritma MixCBLOF, dan menyimpan hasil deteksi outlier. Diagram sequence terlampir pada lampiran 4.
4.2.6
Perancangan Struktur Data Pada penelitian ini menggunakan struktur data berupa ArrayList (lihat Gambar 2.3) dan Matriks (lihat Gambar 2.4). Pada ArrayList, jumlah sekolah sebagai element data. Setiap data sekolah akan berada dalam index yang sama. Sebagai contoh, akan digambarkan pada Gambar 4.3 berikut.
39
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Gambar 4. 4 Perancangan Arraylist
Pada Matriks, terdapat baris dan kolom, baris disesuaikan dengan jumlah data sekolah, dan kolom disesuaikan dengan jumlah atributnya. Pada matriks ini digunakan untuk menampung nilai derajat outlier. Sebagai contoh, akan digambarkan pada Gambar 4.4 berikut.
Gambar 4. 5 Perancangan Matriks
Ilustrasi pada Gambar 4.4 di atas merupakan contoh ilustrasi matriks dengan ukuran 4x3, artinya memiliki 4 baris sebagai jumlah sekolah dan 3 kolom sebagai atributnya yaitu derajat dari atribut Ujian Nasional, Indeks Integritas Ujian Nasional, dan Akreditasi. Ilustrasi tersebut menggambarkan penyimpanan derajat outlier per atribut.
40
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4.2.7
Diagram Kelas Disain Diagram kelas disain terlampir pada lampiran 5.
4.2.8
Algoritma per Method Rincian algoritma per method terlampir pada lampiran 6.
4.2.9
Perancangan Antarmuka Sistem deteksi outlier yang akan dibangun memiliki empat antarmuka
(interface) yang terdiri dari halaman awal (beranda), halaman proses, halaman bantuan, dan halaman tentang.
41
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4.2.9.1
Perancangan Halaman Awal Halaman awal merupakan halaman pertama yang akan
dilihat oleh user saat sistem dijalankan. Halaman awal dapat dilihat pada gambar 4.5 berikut ini.
Gambar 4. 64 Rancangan Antarmuka Halaman Utama
Pada halaman awal ini terdapat beberapa tombol yaitu “BERANDA”, “BANTUAN”, “TENTANG”, dan “Masuk Sistem”. Tombol “BERANDA” merupakan tombol untuk menuju ke halaman awal. Tombol “BANTUAN” merupakan tombol untuk menuju ke halaman bantuan yang berisi mengenai panduan menggunakan sistem. Tombol “TENTANG” merupakan tombol untuk menuju ke halaman tentang yang berisi mengenai informasi pembuat sistem. Tombol 42
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
“Masuk Sistem” merupakan tombol untuk menuju ke halaman proses sebagai awal untuk memulai proses deteksi outlier. . 4.2.9.2
Perancangan Halaman Proses Perancangan antarmuka halaman proses dapat dilihat pada
gambar 4.6 berikut.
Gambar 4. 75 Rancangan Antarmuka Halaman Proses
Halaman ini merupakan halaman untuk memproses data. Pada halaman ini terdapat tiga tombol “BERANDA”,
“BANTUAN”,
dan
menu yaitu tombol
“TENTANG”.
Tombol
“BERANDA” merupakan tombol untuk menuju ke halaman awal. Tombol “BANTUAN” merupakan tombol untuk menuju ke halaman bantuan yang berisi mengenai panduan menggunakan sistem. Tombol “TENTANG” merupakan tombol untuk menuju ke halaman tentang yang berisi mengenai informasi pembuat sistem.
43
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Preprocessing data dimulai dengan import data dari file berupa Microsoft Excel dengan ekstensi .xls. Tombol “Pilih Data” merupakan tombol yang digunakan untuk import file data diambil dari direktori komputer user. Setelah memilih file data, maka data tersebut akan tertampil di tabel yang sudah disediakan. Tahap selanjutnya yaitu mengisikan nilai dari variabel b, Alfa, dan Beta untuk melancarkan preprocessing data, karena jika tidak diisi maka akan muncul pemberitahuan error. Setelah mengisikan ketiga variabel tersebut kemudian menekan tombol “Proses”. Tombol “Proses” merupakan tombol untuk melakukan preprocessing data. Jika proses sudah selesai maka kalimat “Belum Proses” akan diubah menjadi kalimat “Selesai” untuk memberitahukan kepada user bahwa preprocessing sudah selesai. Tahap preprocessing terakhir yaitu melihat hasil deteksi outlier yang sudah selesai dalam hal pemrosesan data. Tombol “Lihat Hasil” merupakan tombol untuk menuju ke frame hasil deteksi yang berisikan hasil penghitungan berupa derajat outlier semua sekolah. Perancangan antarmuka frame hasil dapat dilihat pada gambar 4.7 berikut.
Gambar 4. 8 Rancangan Antarmuka Frame Hasil 44
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Frame ini merupakan frame untuk menampilkan hasil dari preprocessing data. Frame ini merupakan salah satu bagian dari Halproses. Pada frame ini dibagi menjadi dua bagian yaitu menampilkan hasil derajat outlier semua sekolah, dan menampilkan hasil outlier sesuai dengan nilai Threshold yang diisi. Jika preprocessing selesai maka tabel atas (tabel pertama) akan terisi dengan data sekolah dan hasil derajat outlier per sekolah. Setelah itu user mengisikan variabel Threshold untuk menampilkan beberapa sekolah saja yang mempunyai nilai derajat outlier terkecil, sehingga jumlah sekolah yang terdeteksi sebagai outlier akan ditentukan oleh user. Tombol “Submit” merupakan tombol untuk menampilkan sekolah berdasar variabel Threshold yang diisi oleh user. Tombol “Simpan” merupakan tombol untuk melakukan penyimpanan hasil deteksi outlier. User akan dihadapkan pada dua pilihan (lihat gambar 4.8) yaitu menyimpan hasil semua deteksi outlier atau hanya menyimpan hasil deteksi outlier yang sudah dithreshold.
Gambar 4. 9 Rancangan Dialog Pilih Penyimpanan
Jika user memilih tombol “Semua” maka akan menyimpan hasil deteksi outlier semua sekolah (tabel pertama), jika user memilih tombol “Threshold” maka akan menyimpan hasil deteksi outlier beberapa sekolah (tabel kedua).
45
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4.2.9.3
Perancangan Halaman Bantuan Perancangan antarmuka halaman bantuan dapat dilihat pada
gambar 4.9.
Gambar 4. 10 Rancangan Halaman Bantuan
Halaman ini merupakan halaman antarmuka bantuan. Halaman ini berisi mengenai panduan penggunaan sistem. Pada halaman ini terdapat tiga tombol yaitu tombol “BERANDA”, tombol “BANTUAN”, dan tombol “TENTANG”. Tombol “BERANDA” merupakan tombol untuk menuju ke halaman awal. Tombol “BANTUAN” merupakan tombol untuk menuju ke halaman bantuan yang berisi mengenai panduan
menggunakan sistem. Tombol
“TENTANG” merupakan tombol untuk menuju ke halaman tentang yang berisi mengenai informasi pembuat sistem.
46
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4.2.9.4
Perancangan Halaman Tentang Perancangan antarmuka halaman tentang dapat dilihat pada
gambar 4.10.
Gambar 4. 11 Rancangan Halaman Tentang
Halaman ini merupakan halaman antarmuka tentang. Halaman ini berisi mengenai informasi pembuat. Pada halaman ini terdapat
tiga
tombol
yaitu
tombol
“BERANDA”,
tombol
“BANTUAN”, dan tombol “TENTANG”. Tombol “BERANDA” merupakan tombol untuk menuju ke halaman awal. Tombol “BANTUAN” merupakan tombol untuk menuju ke halaman bantuan yang berisi mengenai panduan menggunakan sistem. Tombol “TENTANG” merupakan tombol untuk menuju ke halaman tentang yang berisi mengenai informasi pembuat sistem.
47
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB V IMPLEMENTASI PENAMBANGAN DATA DAN EVALUASI HASIL
5.1 Implementasi Rancangan Perangkat Lunak Perangkat Lunak deteksi outlier ini memiliki 8 buah kelas yang terdiri dari tigas kelas model, satu kelas controller, dan empat kelas view.
5.1.1
Implementasi Kelas Model Implementasi kelas model dapat dilihat pada tabel 5.1 berikut. Tabel 5. 1 Implementasi Kelas Model
No.
Nama Kelas
Nama File Fisik
Nama File Excecutable
1.
DataSekolah
DataSekolah.java
DataSekolah.class
2.
HasilCluster
HasilCluster.java
HasilCluster.class
3.
OutlierFinal
OutlierFinal.java
OutlierFinal.class
5.1.2
Implementasi Kelas View Implementasi kelas view dapat dilihat pada tabel 5.2 berikut. Tabel 5. 2 Implementasi Kelas View
No. 1. 2.
3.
Use Case
Antarmuka
Memilih file data .xls Deteksi menggunakan Algoritma MixCBLOF Menyimpan data hasil
Nama Kelas Boundary Hal_Proses.class Hal_Proses.class
Hal_Proses.class
48
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Selanjutnya akan dijelaskan mengenai spesifikasi detail dari setiap antarmuka yang ada pada perangkat lunak deteksi outlier ini. Spesifikasi detail dari kelas Hal_Utama dapat dilihat pada tabel 5.3 berikut. Tabel 5. 3 Spesifikasi detail kelas Hal_Utama.java
Id Objek
Jenis
Teks
Keterangan
btnBeranda
Button
BERANDA
Jika di klik maka akan menuju ke halaman Hal_Utama.java
btnBantuan
Button
BANTUAN
Jika di klik maka akan menuju ke halaman Hal_Bantuan.java
btnTentang
Button
TENTANG
Jika di klik maka akan menuju ke halaman Hal_Tentang.java
jLabel1
Label
Judul perangkat lunak yang dibangun
jLabel2
Label
SISTEM PENDETEKSI OUTLIER Logo Sadhar.png
btnMasuk
Button
Masuk Sistem
Jika di klik maka akan menuju ke halaman Hal_Proses.java
jLabel3
Label
I. Kristanto Riyadi
Identitas nama pembuat perangkat lunak
jLabel4
Label
135314062
Identitas nomor induk mahasiswa pembuat perangkat lunak
jLabel5
Label
Identitas universitas pembuat perangkat lunak
jLabel6
Label
UNIVERSITAS SANATA DHARMA YOGYAKARTA
jLabel7
Label
-COPYRIGHT 2017-
Identitas hak cipta pembuat perangkat lunak dan tahun pembuatan perangkat lunak
49
Gambar logo Universitas Sanata Dharma berwarna
Identitas universitas
provinsi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Implementasi antarmuka dari kelas Hal_Utama (halaman awal) dapat dilihat pada gambar 5.1 berikut.
Gambar 5. 1 Implementasi Antarmuka Hal_Utama
Spesifikasi detail dari kelas Hal_Proses.java dapat dilihat pada tabel 5.4 berikut. Tabel 5. 4 Spesifikasi detail kelas Hal_Proses.java
Id Objek
Jenis
Teks
Keterangan
btnBeranda
Button
BERANDA
Jika di klik maka akan menuju ke halaman Hal_Utama.java
btnBantuan
Button
BANTUAN
Jika di klik maka akan menuju ke halaman Hal_Bantuan.java
btnTentang
Button
TENTANG
Jika di klik maka akan menuju ke halaman
50
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Hal_Tentang.java 1. jLabel1
Label
2. jLabel2
Label
txtPilihData
TextField
btnPilihData
Button
tabelData
Table
jLabel6
Label
SISTEM DETEKSI OUTLIER MENGGUNAKAN ALGORITMA MIXCBLOF
Judul perangkat lunak yang dibangun
Isi path direktori dari data file yang dimasukkan ke dalam tabelData Pilih Data
Jika di klik akan memunculkan dialog file chooser untuk memilih file data dari direktori komputer Menampilkan data dari file yang dimasukkan
Jumlah Data
txtJumlahData TextField
Mendeskripsikan jumlah data dari data yang dimasukkan Isi jumlah data dari data yang dimasukkan
jLabel20
Label
B
Mendeskripsikan variabel b sebagai proses deteksi
txtB
TextField
jLabel23
Label
(* 1-3
Mendeskripsikan keterangan menginputkan variabel b
jLabel21
Label
Alfa
Mendeskripsikan variabel Alfa sebagai proses deteksi
txtAlfa
TextField
jLabel24
Label
Isi variabel b sebagai proses deteksi
Isi variabel Alfa sebagai proses deteksi %
Mendeskripsikan presentasi dari variabel 51
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Alfa yang diinputkan jLabel22
Label
Beta
Mendeskripsikan variabel Beta sebagai proses deteksi
txtBeta
TextField
labelNotif
Label
.... BELUM PROSES ....
Mendeskripsikan pemberitahuan proses
btnProses
Button
Proses
Jika di klik maka akan memulai proses deteksi outlier, jika sudah selesai akan mengubah labelNotif menjadi “Selesai”
btnLihat
Button
Lihat Hasil
Jika di klik maka akan menuju ke frameDeteksi
Isi variabel Beta sebagai proses deteksi
Implementasi antarmuka dari kelas Hal_Proses.java dapat dilihat pada gambar 5.2 berikut.
Gambar 5. 2 Implementasi Antarmuka kelas Hal_Proses 52
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Spesifikasi detail dari frame frameDeteksi (bagian dari halaman Hal_Proses) dapat dilihat pada tabel 5.5 berikut. Tabel 5. 5 Spesifikasi detail frame frameDeteksi
Id Objek
Jenis
1. jLabel8
Label
2. jLabel9
Label
jTable2
Table
jLabel18
Label
Teks
Keterangan
SISTEM DETEKSI Judul perangkat lunak OUTLIER yang dibangun MENGGUNAKAN ALGORITMA MIXCBLOF Menampilkan data dengan derajat outlier per sekolah Jumlah Data
txtJumlahData2 TextField
Mendeskripsikan jumlah data dari data yang dimasukkan Isi jumlah data dari data yang dimasukkan
jLabel3
Label
Threshold
Mendeskripsikan threshold/ mengatur garis batasan keputusan
txtThreshold
TextField
btnSubmit
Button
Submit
Jika di klik maka akan menampilkan jumlah sekolah dengan derajat outlier terendah sebanyak nilai threshold yang diinputkan
btnSimpan
Button
Simpan
Jika di klik maka akan menuju ke dialogSimpan untuk menyimpan data hasil deteksi outlier
jTable1
Table
Isi threshold
Menampilkan data hasil deteksi outlier sebanyak nilai threshold diinputkan 53
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Implementasi antarmuka frame frameDeteksi dapat dilihat pada gambar 5.3 berikut.
Gambar 5. 3 Implementasi Antarmuka frameDeteksi
Spesifikasi detail dari kelas Hal_Bantuan dapat dilihat pada tabel 5.6 berikut. Tabel 5. 6 Spesifikasi detail kelas Hal_Bantuan.java
Id Objek
Jenis
Teks
Keterangan
btnBeranda
Button
BERANDA
Jika di klik maka akan menuju ke halaman Hal_Utama.java
btnBantuan
Button
BANTUAN
Jika di klik maka akan menuju ke halaman Hal_Bantuan.java
btnTentang
Button
TENTANG
Jika di klik maka akan menuju ke halaman Hal_Tentang.java
Label
SISTEM DETEKSI OUTLIER MENGGUNAKAN
Judul perangkat lunak yang dibangun
1. jLabel1
54
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2. jLabel2 jLabel3
jTextArea1
Label
ALGORITMA MIXCBLOF
Label
PANDUAN PENGGUNAAN SISTEM
TextArea
Mendeskripsikan panduan penggunaan perangkat lunak Berisi langkah-langkah penggunaan sistem, dan penjelasan tomboltombol penting yang ada di sistem
Implementasi antarmuka kelas Hal_Bantuan dapat dilihat pada gambar 5.4 berikut.
Gambar 5. 4 Implementasi Antarmuka Hal_Bantuan
Spesifikasi detail dari kelas Hal_Tentang dapat dilihat pada tabel 5.7 berikut.
55
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Tabel 5. 7 Spesifikasi detail kelas Hal_Tentang.java
Id Objek
Jenis
Teks
Keterangan
btnBeranda
Button
BERANDA
Jika di klik maka akan menuju ke halaman Hal_Utama.java
btnBantuan
Button
BANTUAN
Jika di klik maka akan menuju ke halaman Hal_Bantuan.java
btnTentang
Button
TENTANG
Jika di klik maka akan menuju ke halaman Hal_Tentang.java
Label
SISTEM DETEKSI OUTLIER MENGGUNAKAN ALGORITMA MIXCBLOF
Judul perangkat lunak yang dibangun
INFORMASI SISTEM
Mendeskripsikan informasi pembuat perangkat lunak
3. jLabel1
Label 4. jLabel2 jLabel3
jTextArea1
Label
TextArea
Berisi mengenai informasi tentang pembuat perangkat lunak dan judul tugas akhir yang dikerjakan
56
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Implementasi antarmuka kelas Hal_Tentang dapat dilihat pada gambar 5.5 berikut
Gambar 5. 5 Implementasi Antarmuka Hal_Tentang
5.1.3
Implementasi Kelas Control Implementasi kelas controller dapat dilihat pada tabel 5.8 berikut. Tabel 5. 8 Implementasi kelas Controller
No.
Use Case
Nama File Fisik
Nama File Excecutable
1.
Pilih file input
Hal_Utama.java
Hal_Utama.class
2.
Deteksi menggunakan Algoritma MixCBLOF Simpan data hasil
OutlierControl.java
OutlierControl.class
OutlierControl.java
OutlierControl.class
3.
57
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5.2 Evaluasi Hasil 5.2.1
Pengujian Perangkat Lunak (Black Box) 5.2.1.1.
Rencana Pengujian Black Box Rencana pengujian dengan menggunakan black box pada
perangkat lunak ini akan dijelaskan pada tabel 5.9 berikut. Tabel 5. 9 Rencana pengujian Black Box
No. 1.
2.
3.
Use Case Pilih file input
Deteksi menggunakan Algoritma MixCBLOF Simpan data hasil
5.2.1.2.
Butir Uji Pengujian memilih data dari direktori berupa file bertipe .xls Pengujian memilih data dari direktori berupa file selain bertipe .xls Pengujian memasukkan nilai yang sesuai sehingga proses deteksi dapat berjalan Pengujian terjadi kesalahan dalam memasukkan nilai Pengujian menyimpan hasil deteksi ke dalam file bertipe .xls
Kasus Uji UC1-01 UC1-02
UC2-01
UC2-02 UC3-01
Prosedur Pengujian Black Box dan Kasus Uji Setelah menyusun rencana pengujian black box dan kasus
uji kemudian melakukan pengujian yang terlampir pada lampiran 7.
5.2.1.3.
Evaluasi Pengujian Black Box Seluruh hasil pengujian black box pada lampiran 7 sudah
menunjukkan bahwa hasil semua pengujian sudah sesuai dengan perancangan sehingga perangkat lunak dapat berjalan dengan baik. Perangkat lunak ini juga mampu memberikan pemberitahuan jika terjadi kesalahan atau error, baik dari pengguna maupun sistemnya, sehingga memudahkan pengguna/ user menggunakan perangkat lunak ini.
58
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5.2.2
Pengujian Perbandingan Hasil Pencarian Outlier Secara Manual dengan Hasil Pencarian Outlier menggunakan Perangkat Lunak
5.2.2.1.
Pencarian Outlier Secara Manual Pengujian penghitungan manual menggunakan lima belas
data sampel nilai Ujian Nasional (UN), Indeks Integritas Ujian Nasional (IIUN), dan Akreditasi SMA jurusan IPA Daerah Istimewa Yogyakarta tahun ajaran 2014/2015. Proses penghitungan manual dilakukan menggunakan aplikasi Microsoft Excel 2010. Dalam melakukan proses deteksi outlier secara manual menggunakan nilai variabel b sebesar 2, Alfa sebesar 70%, dan Beta sebesar 3. Proses penghitungan manual terlampir pada lampiran 8.
5.2.2.2.
Pencarian Outlier menggunakan Perangkat Lunak Pengujian penghitungan perangkat lunak menggunakan data
yang sama dengan data yang digunakan untuk melakukan penghitungan manual yaitu lima belas data sampel nilai Ujian Nasional (UN), nilai Indeks Integritas Ujian Nasional (IIUN), dan nilai Akreditasi SMA jurusan IPA Daerah Istimewa Yogyakarta tahun ajaran 2014/2015. Pencarian
derajat
outlier
pada
perangkat
lunak
menggunakan nilai b sebesar 2, Alfa sebesar 70%, dan Beta sebesar 3. Hasil penghitungan perangkat lunak dapat dilihat pada gambar 5.6 dan 5.7 berikut.
59
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Gambar 5. 6 Hasil Penambangan Data menggunakan Perangkat Lunak
Gambar 5. 7 Hasil Penambangan Data menggunakan Perangkat Lunak 60
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5.2.2.3.
Evaluasi Pengujian Perbandingan Hitung Manual dengan Hasil Perangkat Lunak Hasil pencarian derajat outlier menggunakan penghitungan
manual dan penghitungan perangkat lunak memiliki hasil yang sama, maka dapat disimpulkan bahwa perangkat lunak dapat berjalan dengan baik dan sesuai dengan yang diharapkan.
61
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB VI ANALISIS HASIL DAN PEMBAHASAN
6.1. Dataset Pada penelitian ini memerlukan dataset yang digunakan untuk mengidentifikasi outlier. Dataset yang digunakan yaitu sebagai berikut. 1. Data nilai hasil Ujian Nasional, nilai Indeks Integritas Ujian Nasional, dan nilai Akreditasi SMA jurusan IPA di Daerah Istimewa Yogyakarta tahun ajaran 2014/2015. 2. Data nilai hasil Ujian Nasional, nilai Indeks Integritas Ujian Nasional, dan nilai Akreditasi SMA jurusan IPS di Daerah Istimewa Yogyakarta tahun ajaran 2014/2015. Proses deteksi outlier yang dilakukan dengan menggunakan variasi pada nilai b, Alfa, Beta, dan Threshold. 6.2. Hasil Identifikasi Outlier 6.2.1. Hasil Identifikasi Outlier Dataset Jurusan IPA Hasil identifikasi outlier pada jurusan IPA dilakukan dengan berbagai variasi mengenai nilai b, Alfa, Beta, dan Threshold. Hasil identifikasi outlier dengan nilai Threshold sebesar 7. Nilai variabel b, Alfa, dan Beta digunakan sebagai pembagian klaster besar dan kecil menggunakan persamaan rumus 2.1 dan rumus 2.2. 1. Nilai b = 1, Alfa = 20%, dan Beta bervariasi Percobaan pertama pada dataset jurusan IPA menggunakan nilai b sebesar 1, Alfa sebesar 20%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.1 berikut.
62
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Tabel 6. 1 Hasil pengujian pertama jurusan IPA
b
Alfa
Beta
1
20%
1
1
20%
2
1
20%
3
Hasil Deteksi 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5. 6. 7.
SMA MUHAMMADIYAH KALASAN SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH PAKEM SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH MLATI SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH KALASAN SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH PAKEM SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH MLATI SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH KALASAN SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH PAKEM SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH MLATI SMA MUHAMMADIYAH PIYUNGAN
Pada hasil pengujian tabel 6.1 di atas, variasi Beta tidak berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Alfa. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut, pada semua atribut memenuhi syarat rumus 2.1.
2. Nilai b = 1, Alfa = 30%, dan Beta bervariari Percobaan kedua pada dataset jurusan IPA menggunakan nilai b sebesar 1, Alfa sebesar 30%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.2 berikut.
63
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Tabel 6. 2 Hasil pengujian kedua jurusan IPA
b
Alfa
Beta
1
30%
1
1
30%
2
1
30%
3
Hasil Deteksi 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5. 6. 7.
SMA MUHAMMADIYAH KALASAN SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH PAKEM SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH MLATI SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH KALASAN SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH PAKEM SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH MLATI SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH KALASAN SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH PAKEM SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH MLATI SMA MUHAMMADIYAH PIYUNGAN
Pada hasil pengujian tabel 6.2 di atas, variasi Beta tidak berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada semua atribut memenuhi syarat rumus 2.1.
3. Nilai b = 1, Alfa = 40%, dan Beta bervariasi Percobaan ketiga pada dataset jurusan IPA menggunakan nilai b sebesar 1, Alfa sebesar 40%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.3 berikut. 64
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Tabel 6. 3 Hasil pengujian ketiga jurusan IPA
b
Alfa
Beta
Hasil Deteksi 1. 2. 3. 4. 5. 6. 7.
1
40%
1
1
40%
2
SMA MUHAMMADIYAH KALASAN SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH PAKEM SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH MLATI SMA MUHAMMADIYAH PIYUNGAN -
1
40%
3
-
Pada hasil pengujian tabel 6.3 di atas, variasi Beta berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Beta pada atribut UN dan IIUN. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada atribut UN dan IIUN memenuhi syarat pada rumus 2.2, sedangkan atribut Akreditasi memenuhi syarat rumus 2.1.
4. Nilai b = 2, Alfa = 20%, dan Beta bervariasi Percobaan keempat pada dataset jurusan IPA menggunakan nilai b sebesar 2, Alfa sebesar 20%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.4 berikut. Tabel 6. 4 Hasil pengujian keempat jurusan IPA
b
2
Alfa
20%
Beta
1
Hasil Deteksi 1. 2. 3. 4. 5. 6. 7.
SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH MLATI 65
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
20%
2
2
20%
3
1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5. 6. 7.
SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH MLATI SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH MLATI
Pada hasil pengujian tabel 6.4 di atas, variasi Beta tidak berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada semua atribut memenuhi syarat rumus 2.1.
5. Nilai b = 2, Alfa = 50%, dan Beta bervariasi Percobaan kelima pada dataset jurusan IPA menggunakan nilai b sebesar 2, Alfa sebesar 50%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.5 berikut. Tabel 6. 5 Hasil pengujian kelima jurusan IPA
b
2
Alfa
50%
Beta
1
Hasil Deteksi 1. 2. 3. 4. 5. 6.
SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA GAJAH MADA YOGYAKARTA 66
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
50%
2
2
50%
3
7. 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5. 6. 7.
SMA MUHAMMADIYAH MLATI SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH MLATI SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH MLATI
Pada hasil pengujian tabel 6.5 di atas, variasi Beta tidak berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada semua atribut memenuhi syarat rumus 2.1.
6. Nilai b = 2, Alfa = 70%, dan Beta bervariasi Percobaan keenam pada dataset jurusan IPA menggunakan nilai b sebesar 2, Alfa sebesar 70%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.6 berikut. Tabel 6. 6 Hasil pengujian keenam jurusan IPA
b
2
Alfa
70%
Beta
1
Hasil Deteksi 1. 2. 3. 4. 5. 6. 7.
SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH MLATI 67
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
70%
2
2
70%
3
1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5. 6. 7.
SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH MLATI SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH MLATI
Pada hasil pengujian tabel 6.6 di atas, variasi Beta tidak berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada semua atribut memenuhi syarat rumus 2.1.
7. Nilai b = 2, Alfa = 80%, dan Beta bervariasi Percobaan ketujuh pada dataset jurusan IPA menggunakan nilai b sebesar 2, Alfa sebesar 80%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.7 berikut. Tabel 6. 7 Hasil pengujian ketujuh jurusan IPA
b
Alfa
Beta
2
80%
1
2
80%
2
Hasil Deteksi 1. 2. 3. 4. 5. 6. 7. -
SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA GAJAH MADA YOGYAKARTA SMA MUHAMMADIYAH MLATI 68
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
80%
3
-
Pada hasil pengujian tabel 6.7 di atas, variasi Beta berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Beta pada atribut UN. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada atribut UN memenuhi syarat pada rumus 2.2, sedangkan atribut IIUN dan Akreditasi memenuhi syarat rumus 2.1.
8. Nilai b = 3, Alfa = 50%, dan Beta bervariasi Percobaan kedelapan pada dataset jurusan IPA menggunakan nilai b sebesar 3, Alfa sebesar 50%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.8 berikut. Tabel 6. 8 Hasil pengujian kedelapan jurusan IPA
b
Alfa
Beta
3
50%
1
3
50%
2
3
50%
3
Hasil Deteksi 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5.
SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA GAJAH MADA YOGYAKARTA SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA GAJAH MADA YOGYAKARTA SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN 69
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6. SMA MUHAMMADIYAH MLATI 7. SMA GAJAH MADA YOGYAKARTA Pada hasil pengujian tabel 6.8 di atas, variasi Beta tidak berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada semua atribut memenuhi syarat rumus 2.1.
9. Nilai b = 3, Alfa = 80%, dan Beta bervariasi Percobaan kesembilan pada dataset jurusan IPA menggunakan nilai b sebesar 3, Alfa sebesar 80%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.9 berikut. Tabel 6. 9 Hasil pengujian kesembilan jurusan IPA
b
Alfa
Beta
3
80%
1
3
80%
2
3
80%
3
Hasil Deteksi 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5. 6.
SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA GAJAH MADA YOGYAKARTA SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA GAJAH MADA YOGYAKARTA SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI 70
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7. SMA GAJAH MADA YOGYAKARTA Pada hasil pengujian tabel 6.9 di atas, variasi Beta tidak berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada semua atribut memenuhi syarat rumus 2.1.
10. Nilai b = 3, Alfa = 100%, dan Beta bervariasi Percobaan kesepuluh pada dataset jurusan IPA menggunakan nilai b sebesar 3, Alfa sebesar 100%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.10 berikut. Tabel 6. 10 Hasil pengujian kesepuluh jurusan IPA
b
Alfa
Beta
3
100%
1
3
100%
2
3
100%
3
Hasil Deteksi 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5. 6.
SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA GAJAH MADA YOGYAKARTA SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA GAJAH MADA YOGYAKARTA SMA „17‟ YOGYAKARTA SMA MUHAMMADIYAH KALASAN SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH 1 SLEMAN SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI 71
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7. SMA GAJAH MADA YOGYAKARTA Pada hasil pengujian tabel 6.10 di atas, variasi Beta tidak berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada semua atribut memenuhi syarat rumus 2.1.
6.2.2.
Hasil Identifikasi Outlier Dataset Jurusan IPS Hasil identifikasi outlier pada jurusan IPS dilakukan dengan
berbagai variasi mengenai nilai b, Alfa, Beta, dan Threshold. Hasil identifikasi outlier dengan nilai Threshold sebesar 7. 1. Nilai b = 1, Alfa = 30%, dan Beta bervariasi Percobaan pertama pada dataset jurusan IPS menggunakan nilai b sebesar 1, Alfa sebesar 30%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.11 berikut. Tabel 6. 11 Hasil pengujian pertama jurusan IPS
b
Alfa
Beta
1
30%
1
1
30%
2
Hasil Deteksi 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5. 6. 7.
SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA SANJAYA XIV NANGGULAN SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA SANJAYA XIV NANGGULAN 72
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
30%
3
1. 2. 3. 4. 5. 6. 7.
SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA SANJAYA XIV NANGGULAN
Pada hasil pengujian tabel 6.11 di atas, variasi Beta tidak berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada semua atribut memenuhi syarat rumus 2.1.
2. Nilai b = 1, Alfa = 50%, dan Beta bervariasi Percobaan pertama pada dataset jurusan IPS menggunakan nilai b sebesar 1, Alfa sebesar 50%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.12 berikut. Tabel 6. 12 Hasil pengujian kedua jurusan IPS
b
1
1
Alfa
50%
50%
Beta
1
2
Hasil Deteksi 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5.
SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA SANJAYA XIV NANGGULAN SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN 73
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
50%
3
6. 7. 1. 2. 3. 4.
SMA MUHAMMADIYAH MLATI SMA SANJAYA XIV NANGGULAN SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA 5. SMA MUHAMMADIYAH PIYUNGAN 6. SMA MUHAMMADIYAH MLATI 7. SMA SANJAYA XIV NANGGULAN
Pada hasil pengujian tabel 6.12 di atas, variasi Beta tidak berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada semua atribut memenuhi syarat rumus 2.1.
3. Nilai b = 1, Alfa = 60%, dan Beta bervariasi Percobaan pertama pada dataset jurusan IPS menggunakan nilai b sebesar 1, Alfa sebesar 60%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.13 berikut. Tabel 6. 13 Hasil pengujian ketiga jurusan IPS
b
Alfa
Beta
1
60%
1
1
60%
2
Hasil Deteksi SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA 5. SMA MUHAMMADIYAH PIYUNGAN 6. SMA MUHAMMADIYAH MLATI 7. SMA SANJAYA XIV NANGGULAN 1. 2. 3. 4.
74
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
60%
3
-
Pada hasil pengujian tabel 6.13 di atas, variasi Beta berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Beta pada atribut UN. Alfa dan Beta merupakan variabel
yang digunakan untuk
melakukan
penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada atribut UN memenuhi syarat pada rumus 2.2, sedangkan atribut IIUN dan Akreditasi memenuhi syarat rumus 2.1.
4. Nilai b = 2, Alfa = 40%, dan Beta bervariasi Percobaan pertama pada dataset jurusan IPS menggunakan nilai b sebesar 2, Alfa sebesar 40%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.14 berikut. Tabel 6. 14 Hasil pengujian keempat jurusan IPS
b
2
2
2
Alfa
40%
40%
40%
Beta
1
2
3
Hasil Deteksi 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5. 6. 7. 1.
SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA SANJAYA XIV NANGGULAN SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA SANJAYA XIV NANGGULAN SMA MA‟ARIF YOGYAKARTA 75
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2. SMA MA‟ARIF WATES 3. SMA IKIP VETERAN 4. SMA SANTO THOMAS YOGYAKARTA 5. SMA MUHAMMADIYAH PIYUNGAN 6. SMA MUHAMMADIYAH MLATI 7. SMA SANJAYA XIV NANGGULAN Pada hasil pengujian tabel 6.14 di atas, variasi Beta tidak berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada semua atribut memenuhi syarat rumus 2.1.
5. Nilai b = 2, Alfa = 60%, dan Beta bervariasi Percobaan pertama pada dataset jurusan IPS menggunakan nilai b sebesar 2, Alfa sebesar 60%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.15 berikut. Tabel 6. 15 Hasil pengujian kelima jurusan IPS
b
2
2
Alfa
60%
60%
Beta
1
2
Hasil Deteksi 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5.
SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA SANJAYA XIV NANGGULAN SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN 76
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
60%
3
6. 7. 1. 2. 3. 4.
SMA MUHAMMADIYAH MLATI SMA SANJAYA XIV NANGGULAN SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA 5. SMA MUHAMMADIYAH PIYUNGAN 6. SMA MUHAMMADIYAH MLATI 7. SMA SANJAYA XIV NANGGULAN
Pada hasil pengujian tabel 6.15 di atas, variasi Beta tidak berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada semua atribut memenuhi syarat rumus 2.1.
6. Nilai b = 2, Alfa = 80%, dan Beta bervariasi Percobaan pertama pada dataset jurusan IPS menggunakan nilai b sebesar 2, Alfa sebesar 80%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.16 berikut. Tabel 6. 16 Hasil pengujian keenam jurusan IPS
b
2
2
Alfa
80%
80%
Beta
1
2
Hasil Deteksi 1. 2. 3. 4. 5. 6. 7. 1. 2. 3.
SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA SANJAYA XIV NANGGULAN SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN 77
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
80%
3
4. SMA SANTO THOMAS YOGYAKARTA 5. SMA MUHAMMADIYAH PIYUNGAN 6. SMA MUHAMMADIYAH MLATI 7. SMA SANJAYA XIV NANGGULAN 1. SMA MA‟ARIF YOGYAKARTA 2. SMA MA‟ARIF WATES 3. SMA IKIP VETERAN 4. SMA SANTO THOMAS YOGYAKARTA 5. SMA MUHAMMADIYAH PIYUNGAN 6. SMA MUHAMMADIYAH MLATI 7. SMA SANJAYA XIV NANGGULAN
Pada hasil pengujian tabel 6.16 di atas, variasi Beta tidak berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada semua atribut memenuhi syarat rumus 2.1.
7. Nilai b = 2, Alfa = 90%, dan Beta bervariasi Percobaan pertama pada dataset jurusan IPS menggunakan nilai b sebesar 2, Alfa sebesar 90%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.17 berikut. Tabel 6. 17 Hasil pengujian ketujuh jurusan IPS
b
2
Alfa
90%
Beta
1
Hasil Deteksi SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA 5. SMA MUHAMMADIYAH PIYUNGAN 6. SMA MUHAMMADIYAH MLATI 1. 2. 3. 4.
78
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7. SMA SANJAYA XIV NANGGULAN 2
90%
2
-
2
90%
3
-
Pada hasil pengujian tabel 6.17 di atas, variasi Beta berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Beta pada atribut UN. Alfa dan Beta merupakan variabel
yang digunakan untuk
melakukan
penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada atribut UN memenuhi syarat pada rumus 2.2, sedangkan atribut IIUN dan Akreditasi memenuhi syarat rumus 2.1.
8. Nilai b = 3, Alfa = 50%, dan Beta bervariasi Percobaan pertama pada dataset jurusan IPS menggunakan nilai b sebesar 3, Alfa sebesar 50%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.18 berikut. Tabel 6. 18 Hasil pengujian kedelapan jurusan IPS
b
Alfa
Beta
Hasil Deteksi SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA 5. SMA MUHAMMADIYAH PIYUNGAN 6. SMA MUHAMMADIYAH MLATI 7. SMA SANJAYA XIV NANGGULAN 1. 2. 3. 4.
3
3
50%
50%
1
2
1. 2. 3. 4.
SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA 79
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5. SMA MUHAMMADIYAH PIYUNGAN 6. SMA MUHAMMADIYAH MLATI 7. SMA SANJAYA XIV NANGGULAN
3
50%
3
SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA 5. SMA MUHAMMADIYAH PIYUNGAN 6. SMA MUHAMMADIYAH MLATI 7. SMA SANJAYA XIV NANGGULAN 1. 2. 3. 4.
Pada hasil pengujian tabel 6.18 di atas, variasi Beta tidak berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada semua atribut memenuhi syarat rumus 2.1.
9. Nilai b = 3, Alfa = 80%, dan Beta bervariasi Percobaan pertama pada dataset jurusan IPS menggunakan nilai b sebesar 3, Alfa sebesar 80%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.19 berikut. Tabel 6. 19 Hasil pengujian kesembilan jurusan IPS
b
3
3
Alfa
80%
80%
Beta
1
2
Hasil Deteksi 1. 2. 3. 4. 5. 6. 7. 1.
SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA SANJAYA XIV NANGGULAN SMA MA‟ARIF YOGYAKARTA 80
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
80%
3
2. SMA MA‟ARIF WATES 3. SMA IKIP VETERAN 4. SMA SANTO THOMAS YOGYAKARTA 5. SMA MUHAMMADIYAH PIYUNGAN 6. SMA MUHAMMADIYAH MLATI 7. SMA SANJAYA XIV NANGGULAN 1. SMA MA‟ARIF YOGYAKARTA 2. SMA MA‟ARIF WATES 3. SMA IKIP VETERAN 4. SMA SANTO THOMAS YOGYAKARTA 5. SMA MUHAMMADIYAH PIYUNGAN 6. SMA MUHAMMADIYAH MLATI 7. SMA SANJAYA XIV NANGGULAN
Pada hasil pengujian tabel 6.19 di atas, variasi Beta tidak berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada semua atribut memenuhi syarat rumus 2.1.
10. Nilai b = 3, Alfa = 100%, dan Beta bervariasi Percobaan pertama pada dataset jurusan IPS menggunakan nilai b sebesar 3, Alfa sebesar 100%, dan nilai Beta divariasi dengan beberapa nilai. Hasil percobaan dapat dilihat pada tabel 6.20 berikut. Tabel 6. 20 Hasil pengujian kesepuluh jurusan IPS
b
3
Alfa
100%
Beta
1
Hasil Deteksi 1. 2. 3. 4.
SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA 81
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
3
100%
100%
2
3
5. 6. 7. 1. 2. 3. 4. 5. 6. 7. 1. 2. 3. 4. 5. 6. 7.
SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA SANJAYA XIV NANGGULAN SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA SANJAYA XIV NANGGULAN SMA MA‟ARIF YOGYAKARTA SMA MA‟ARIF WATES SMA IKIP VETERAN SMA SANTO THOMAS YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN SMA MUHAMMADIYAH MLATI SMA SANJAYA XIV NANGGULAN
Pada hasil pengujian tabel 6.20 di atas, variasi Beta tidak berpengaruh dalam hasil deteksi outlier karena pada penentuan nilai b menggunakan nilai Alfa pada semua atribut. Alfa dan Beta merupakan variabel yang digunakan untuk melakukan penentuan nilai b dapat digunakan atau tidak jika memenuhi syarat rumus 2.1 atau rumus 2.2. Hasil pengujian tersebut pada semua atribut memenuhi syarat rumus 2.1.
6.3. Analisis Hasil Identifikasi Outlier 6.3.1. Analisis Hasil Identifikasi Outlier Dataset Jurusan IPA Dari sepuluh percobaan pada dataset jurusan IPA di Daerah Istimewa Yogyakarta tahun ajaran 2014/2015 yang memiliki 115 sekolah, dapat diketahui bahwa dengan menggunakan contoh threshold tujuh didapatkan hasil tujuh sekolah yang sama dari percobaan-percobaan yang sudah dilakukan dengan perbedaan nilai b, Alfa, dan Beta. Tujuh sekolah tersebut yaitu sebagai berikut.
82
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Tabel 6. 21 Hasil Identifikasi Outlier jurusan IPA
Nama Sekolah
Nilai UN
Nilai IIUN
Akreditasi
SMA „17‟ YOGYAKARTA
221.19
75.6
B
SMA KALASAN
228.74
72.4
B
243.76
74.0
B
1
311.9
84.4
B
MUHAMMADIYAH
274.36
78.62
B
SMA MUHAMMADIYAH MLATI
306.86
71.8
B
SMA GAJAH YOGYAKARTA
374.32
53.28
B
MUHAMMADIYAH
SMA MUHAMMADIYAH PAKEM SMA MUHAMMADIYAH SLEMAN SMA PIYUNGAN
MADA
Pada ketujuh sekolah tersebut teridentifikasi sebagai outlier karena dipengaruhi oleh nilai Akreditasi yang bernilai B. Beberapa sekolah juga yang teridentifikasi sebagai outlier karena memiliki nilai UN dan IIUN dibawah rata-rata. SMA Muhammadiyah 1 Sleman memiliki nilai IIUN diatas rata-rata namun memiliki nilai UN dibawah rata-rata dan memiliki nilai akreditasi B, sehingga dapat dikategorikan sebagai outlier. Sama halnya dengan SMA Gajah Mada Yogyakarta yang memiliki nilai UN diatas rata-rata namun memiliki nilai IIUN dibawah rata-rata dan nilai akreditasi bernilai B, sehingga dikategorikan sebagai outlier.
83
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6.3.2. Analisis Hasil Identifikasi Outlier Dataset Jurusan IPS Dari sepuluh percobaan pada dataset jurusan IPS di Daerah Istimewa Yogyakarta tahun ajaran 2014/2015 yang memiliki 120 sekolah, dapat diketahui bahwa dengan menggunakan threshold tujuh didapatkan hasil tujuh sekolah yang sama dari percobaan-percobaan yang sudah dilakukan dengan perbedaan nilai b, Alfa, dan Beta. Tujuh sekolah tersebut yaitu sebagai berikut. Tabel 6. 22 Hasil Identifikasi Outlier jurusan IPS
Nama Sekolah
Nilai UN
Nilai IIUN
Akreditasi
SMA MA‟ARIF YOGYAKARTA
226.45
82.55
B
SMA MA‟ARIF WATES
229.89
67.2
B
SMA IKIP VETERAN
233.93
67.49
B
SMA SANTO THOMAS YOGYAKARTA SMA MUHAMMADIYAH PIYUNGAN
245.08
85.03
B
254.13
82.2
B
SMA MUHAMMADIYAH MLATI
256.42
71.8
B
SMA SANJAYA XIV NANGGULAN
302.35
81.2
B
Pada ketujuh sekolah tersebut teridentifikasi sebagai outlier karena dipengaruhi oleh nilai Akreditasi yang bernilai B. Beberapa sekolah juga yang teridentifikasi sebagai outlier karena memiliki nilai UN dan IIUN dibawah rata-rata. SMA Ma‟arif Yogyakarta, SMA Santo Thomas Yogyakarta, SMA Muhammadiyah Yogyakarta, dan SMA Sanjaya XIV Nanggulan memiliki nilai IIUN diatas rata-rata namun tergolong ke dalam kategori outlier karena dipengaruhi nilai Akreditasi yang bernilai B. Nilai UN pada ketujuh sekolah tersebut berada dibawah rata-rata.
84
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6.4. Kelebihan dan Kekurangan Perangkat Lunak 6.4.1. Kelebihan Perangkat Lunak Kelebihan perangkat lunak pendeteksi outlier menggunakan algoritma MixCBLOF ini adalah : 1. Sistem dapat menerima masukan file bertipe .xls. 2. Sistem dapat menerima masukan dengan jumlah kolom yang dinamis. 3. Sistem menyediakan isian nilai b, Alfa, dan Beta yang digunakan sebagai pembagian klaster besar dan klaster kecil. 4. Sistem menyediakan isian nilai Threshold untuk menampilkan jumlah sekolah yang diinginkan. 5. Sistem dapat menampilkan hasil derajat outlier yang mudah dipahami oleh user. 6. Sistem dapat menyimpan hasil deteksi outlier berupa file bertipe .xls. 6.4.2. Kekurangan Perangkat Lunak Kekurangan perangkat lunak pendeteksi outlier menggunakan algoritma MixCBLOF ini adalah : 1. Data masukan yang dapat diterima masih terbatas yaitu hanya berupa file bertipe .xls. 2. Sistem tidak dapat melakukan otomatisasi penyeleksian atribut, sehingga seleksi atribut dan filter data dilakukan secara manual. 3. Sistem tidak dapat melakukan pengubahan jumlah klaster pada proses clustering. 4. Sistem hanya dapat menyimpan hasil deteksi outlier berupa file bertipe .xls.
85
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB VII PENUTUP
7.1. KESIMPULAN Hasil penelitian penerapan algoritma MixCBLOF untuk melakukan deteksi outlier pada data hasil Ujian Nasional, Indeks Integritas Ujian Nasional, dan Akreditasi SMA di Daerah Istimewa Yogyakarta tahun 2014/2015 ini menghasilkan kesimpulan sebagai berikut : 1. Algoritma MixCBLOF dapat diterapkan untuk deteksi outlier pada data hasil Ujian Nasional, Indeks Integritas Ujian Nasional, dan Akreditasi SMA di Daerah Istimewa Yogyakarta. 2. Nilai b, Alfa, dan Beta yang digunakan memiliki pengaruh terhadap hasil derajat outlier yang dihasilkan. Jika menggunakan nilai b kurang dari jumlah klaster, semakin banyak jumlah data yang digunakan maka semakin tinggi juga nilai maksimal untuk nilai Alfa yang diinginkan. Sedangkan jika menggunakan nilai b sesuai dengan jumlah klaster maka dapat menggunakan nilai maksimal Alfa sebesar 100%. 3. Nilai efektif untuk b disesuaikan dengan jumlah klasternya, sedangkan nilai Alfa menggunakan nilai maksimal yang dapat digunakan. Penetapan nilai efektif untuk b disesuaikan dengan jumlah klasternya karena bergantung pada jumlah data yang digunakan, sehingga dalam mengatasi pada jumlah data yang berubah-ubah maka akan efektif jika menggunakan nilai b yang disesuaikan dengan jumlah klasternya. Nilai maksimal Alfa akan bergantung pada nilai b yang diisikan. 4. Pengujian dataset hasil Ujian Nasional, Indeks Integritas Ujian Nasional, dan Akreditasi SMA jurusan IPA di Daerah Istimewa Yogyakarta tahun ajaran 2014/2015 menghasilkan aturan dalam pengisian nilai b, Alfa, dan Beta sebagai berikut. 86
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
a. Pada pengisian nilai b = 1 maka nilai maksimal Alfa yang dapat digunakan sebesar 30%, sedangkan jika nilai Alfa melebihi nilai maksimal maka menggunakan nilai Beta = 1. b. Pada pengisian nilai b = 2 maka nilai maksimal Alfa yang dapat digunakan sebesar 70%, sedangkan jika nilai Alfa melebihi nilai maksimal maka menggunakan nilai Beta = 1. c. Pada pengisian nilai b = 3 maka nilai maksimal Alfa yang dapat digunakan sebesar 100%, sedangkan nilai Beta tidak digunakan. 5. Pengujian dataset hasil Ujian Nasional, Indeks Integritas Ujian Nasional, dan Akreditasi SMA jurusan IPS di Daerah Istimewa Yogyakarta tahun ajaran 2014/2015 menghasilkan aturan dalam pengisian nilai b, Alfa, dan Beta sebagai berikut. a. Pada pengisian nilai b = 1 maka nilai maksimal Alfa yang dapat digunakan sebesar 50%, sedangkan jika nilai Alfa melebihi nilai maksimal maka menggunakan nilai Beta = 1. b. Pada pengisian nilai b = 2 maka nilai maksimal Alfa yang dapat digunakan sebesar 80%, sedangkan jika nilai Alfa melebihi nilai maksimal maka menggunakan nilai Beta = 1. c. Pada pengisian nilai b = 3 maka nilai maksimal Alfa yang dapat digunakan sebesar 100%, sedangkan nilai Beta tidak digunakan. 6. Hasil deteksi outlier pada data hasil Ujian Nasional, Indeks Integritas Ujian Nasional, dan Akreditasi SMA di Daerah Istimewa Yogyakarta dapat dilihat dari derajat outlier per sekolah, semakin rendah derajat outlier yang dimiliki maka semakin tinggi perbedaan dengan data yang lainnya. Karakteristik sekolah-sekolah yang teridentifikasi sebagai outlier adalah sekolah yang memiliki nilai UN, dan nilai IIUN dibawah ratarata dan memiliki nilai Akreditasi bernilai B. Sekolah yang mempunyai nilai UN dan nilai IIUN tinggi juga teridentifikasi 87
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
sebagai outlier, selain itu juga sekolah yang mempunyai nilai UN tinggi namun nilai IIUN rendah juga teridentifikasi sebagai outlier.
7.2. SARAN Penelitian penerapan algoritma MixCBLOF untuk identifikasi outlier pada data hasil Ujian Nasional, Indeks Integritas Ujian Nasional, dan Akreditasi SMA di Daerah Istimewa Yogyakarta ini memberikan saran untuk pengembangan selanjutnya, yaitu : 1. Perangkat lunak bagian tipe ekstensi file : a.
Perangkat lunak dapat menerima masukan data dari file selain bertipe .xls.
b.
Perangkat lunak dapat menyimpan hasil deteksi outlier ke dalam file selain bertipe .xls.
c.
Perangkat lunak dapat menerima file bertipe .xls dengan isian data yang berbeda.
2. Pada bagian preprocessing data : a.
Perangkat lunak dapat melakukan seleksi atribut sehingga dapat melakukan penggabungan data di dalam perangkat lunak.
b.
Perangkat lunak dapat melakukan seleksi baris yang akan digunakan.
3. Perangkat lunak dapat menampilkan hasil deteksi outlier ke dalam bentuk yang lebih menarik. Misalnya, perangkat lunak diberikan grafik dengan warna khas dari hasil derajat outlier akhir, sehingga dapat dilihat dengan jelas kelompok yang menyimpang dari data lainnya. 4. Penelitian menggunakan dataset yang berbeda. Misalnya dataset di provinsi berbeda. 5. Penelitian menggunakan metode clustering yang berbeda.
88
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6. Penelitian selanjutnya dapat melakukan pendeteksian outlier secara terpisah setiap akreditasi yang ada. Misalnya pendeteksian outlier secara terpisah pada SMA yang berkakreditasi A dengan SMA yang berakreditasi lain, begitu pun hal yang sama dilakukan pada SMA yang berakreditasi B dan C. 7. Pengembangan penelitian untuk memilah arti outlier yang bagus dan jelek. 8. Pengembangan lebih lanjut mengenai penelitian algoritma MixCBLOF.
89
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR PUSTAKA
Han, J., Kamber, M., Pei, J. 2012. Data Mining Concepts and Techniques Third Edition. Elsevier : USA. He, Z., Xu, X., Deng, S. 2003. Discovering Cluster-based Local Outliers. Elsevier : China. Kriegel, H., Kröger, P., Zimek, A. 2010. Outlier Detection Techniques. LudwigMaximilians-Universität München Munich : Germany. Kristanto, Andri. 2004. Rekayasa Perangkat Lunak (Konsep Dasar). Gava Media : Yogyakarta. Maryono, Dwi & Arif Djunaidy. 2010. Deteksi Outlier Berbasis Klaster pada Set Data dengan Atribut Campuran Numerik dan Kategorikal. Institut Teknologi Sepuluh : Surabaya. Octaviani, Maria Renia. 2015. Deteksi Outlier untuk Nilai Ujian Sekolah Menengah Atas (SMA) Menggunakan Algoritma Influenced Outlierness (INFLO). Perpustakaan Universitas Sanata Dharma : Yogyakarta. Tan, Pan Ning, Michael Steinbach dan Vipin Kumar. 2006. Introduction to Data Mining. Pearson Education, Inc : Boston San Fransisco New York.
90
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
LAMPIRAN 1 : NARASI USE CASE
1. Narasi Use Case Pilih file input Pilih file input Nama Use Case
Pilih file input
ID Use Case
1
Aktor
User
Deskripsi
Use case ini merupakan proses memilih file data dari direktori komputer berupa Microsoft Excel dengan ekstensi .xls ke dalam sistem.
Kondisi Awal
User sudah masuk ke dalam sistem dan berada pada halaman proses.
Kondisi Akhir
Data dari file .xls ditampilkan dalam tabel data pada halaman proses. Aksi Aktor
Reaksi Sistem
1. Menekan tombol “Pilih Data” untuk memasukkan file berkstensi .xls. 2. Menampilkan dialog untuk memilih file yang berada di direktori komputer.
Typical Course 3. Memilih file yang akan diproses. 4. Menekan tombol “Open”
Alternative Course
-
91
5. Menampilkan data dari file yang sudah dipilih ke dalam tabel data yang terdapat pada halaman proses. -
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2. Narasi Use Case Deteksi Menggunakan Algoritma MixCBLOF Deteksi Menggunakan Algoritma MixCBLOF Nama Use Case
Deteksi menggunakan algoritma MixCBLOF
ID Use Case
2
Aktor
User
Deskripsi
Use case ini merupakan proses deteksi outlier dari data yang sudah terpilih.
Kondisi Awal
Sistem sudah berada pada halaman proses.
Kondisi Akhir
User dapat melihat hasil deteksi outlier Aksi Aktor
Reaksi Sistem
1. Memasukkan nilai b
Typical Course
2. Memasukkan nilai alfa 3. Memasukkan nilai beta 4. Menekan tombol “Proses” 5. Mengubah label dari “Belum Proses... ” menjadi “Selesai” 6. Menekan tombol “Lihat Hasil” 7. Menampilkan derajat outlier per sekolah.
Alternate Course
1. Memasukkan nilai threshold 2. Menekan tombol “Submit” 3. Menampilkan hasil deteksi outlier sebanyak nilai threshold yang diisi.
92
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3. Narasi Use Case Simpan data hasil Simpan data hasil Nama Use Case
Simpan data hasil
ID Use Case
3
Aktor
User
Deskripsi
Use case ini merupakan proses penyimpanan hasil deteksi outlier ke direktori komputer dalam bentuk file dengan tipe ekstensi .xls.
Kondisi Awal
Hasil deteksi outlier sudah tampil dalam bentuk tabel di halaman frameDeteksi.
Kondisi Akhir
Hasil deteksi outlier sudah tersimpan dalam salah satu direktori di komputer. Aksi Aktor
Reaksi Sistem
1. Menekan tombol “Simpan” 2. Menampilkan kotak dialogSimpan untuk pemilihan penyimpanan hasil semua deteksi atau hasil threshold deteksi 3. Menekan tombol “Semua” 4. Menampilkan kotak dialog pemilihan direktori penyimpanan
Typical Course
5. Memilih direktori penyimpanan hasil semua deteksi outlier 6. Mengisikan nama file yang akan disimpan 7. Menekan tombol “OK” 8. Menyimpan hasil deteksi ke dalam file 93
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
dalam direktori yang telah dipilih. 1. Menekan tombol “Simpan” 2. Menampilkan kotak dialogSimpan untuk pemilihan penyimpanan hasil semua deteksi atau hasil threshold deteksi 3. Menekan tombol “Threshold” 4. Menampilkan kotak dialog pemilihan direktori penyimpanan
Alternative Course 5. Memilih direktori penyimpanan hasil threshold deteksi outlier 6. Mengisikan nama file yang akan disimpan 7. Menekan tombol “OK”
8. Menyimpan hasil deteksi ke dalam file dalam direktori yang telah dipilih.
94
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
LAMPIRAN 2 : DIAGRAM AKTIVITAS
1. Diagram Aktivitas Pilih file input User
Sistem
Menekan tombol "Pilih Data" Menampilkan kotak dialog file chooser
Memilih file data betipe .xls
Menekan tombol "Open"
Menampilkan data ke tabel data di halaman proses
95
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2. Diagram aktivitas Deteksi menggunakan Algoritma MixCBLOF Sistem
User
Memasukkan nilai b
Memasukkan nilai alfa
Memasukkan niali beta
Menekan tombol "Proses"
Mengubah label menjadi "Selesai"
Menekan tombol "Lihat Hasil" Menampilkan hasil derajat outlier semua sekolah
Memasukkan nilai threshold
Ya
Menampilkan hasil deteksi outlier sebanyak nilai threshold
Menekan tombol "Submit"
96
Tidak
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3. Diagram aktivitas Simpan data hasil User
Sistem
Menekan tombol "Simpan"
Menampilkan kotak dialog untuk pilihan data yang akan disimpan
Ya Tidak
Menekan tombol "Semua"
Menampilkan kotak dialog pemilihan penyimpanan
Menekan tombol "Threshold"
Memilih direktori
Mengisi nama file
Menyimpan hasil deteksi ke dalam direktori yang telah dipilih
Menekan tombol "OK"
97
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
LAMPIRAN 3 : DIAGRAM KELAS ANALISIS
98
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
LAMPIRAN 4 : DIAGRAM SEQUENCE
1. Diagram Sequence Pilih File Input
<> Hal_Utama
<> Hal_Proses
User Menekan tombol "Masuk" Menampilkan halaman Hal_Proses
Menekan tombol "Pilih Data" Menampilkan kotak dialog file chooser
Memilih file bertipe .xls
btnPilihDataActionPerformed (java.awt.event.ActionEvent evt)
Menampilkan data dari file ke tabelData
99
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2. Diagram Sequence Deteksi menggunakan Algoritma MixCBLOF
<> Hal_Proses
User
<> OutlierControl
<<model>> DataSekolah
Mengisi nilai b Mengisi nilai alfa Mengisi nilai beta Menekan tombol "Proses"
btnProsesActionPerformed (java.awt.event.ActionEvent evt) Menyimpan data sekolah dari tabelData Data Sekolah tersimpan Cluster atribut UN
Simpan hasil cluster atribut UN Data cluster UN tersimpan Cluster atribut IIUN Simpan hasil cluster atribut IIUN
Data cluster IIUN tersimpan Cluster atribut Akreditasi Simpan hasil cluster atribut Akreditasi Data cluster Akreditasi tersimpan Cetak hasil cluster atribut UN Cetak hasil cluster atribut IIUN
Cetak hasil cluster atribut Akreditasi Penentuan klaster besar dan klaster kecil atribut UN Penentuan klaster besar dan klaster kecil atribut IIUN Penentuan klaster besar dan klaster kecil atribut Akreditasi Hitung NCBLOF atribut UN
Hitung NCBLOF atribut IIUN
Hitung CBLOF atribut Akreditasi
Normalisasi Data sudah dinormalisasi Hitung derajat outlier final
Simpan data hasil outlier final Cetak hasil outlier final
Memasukkan hasil derajat outlier kejtable2
Mengubah label menjadi "Selesai" Menekan tombol "Lihat Hasil"
Menampilkan derajat outlier semua sekolah
100
<<model>> HasilCluster
<<model>> OutlierFinal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3. Diagram Sequence Simpan data hasil
User
<> Hal_Proses Menekan tombol "Simpan" Menampilkan kotak dialog Menekan tombol "Semua" Tampil dialog pemilihan direktori penyimpanan
Memilih direkotri penyimpanan Mengisi nama file Menekan tombol "OK" Hasil deteksi tersimpan sesuai direktori
101
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
LAMPIRAN 5 : DIAGRAM KELAS DISAIN <> Hal_Tentang - jButton1 : JButton - jButton2 : JButton - jButton3 : JButton - jLabel1 : JLabel - jLabel2 : JLabel - jLabel3 : JLabel - jPanel1 : JPanel - jPanel2 : JPanel - jScrollPane1 : JScrollPane - jTextArea1 : JTextArea -
<> Hal_Utama
<> Hal_Bantuan
- btnBantuan : JButton - btnBeranda : JButton - btnMasuk : JButton - btnTentang : JButton - jLabel1 : JLabel - jLabel2 : JLabel - jLabel3 : JLabel - jLabel4 : JLabel - jLabel5 : JLabel - jLabel6 : JLabel - jLabel7 : JLabel - jPanel1 : JPanel - jPanel2 : JPanel
- jButton1 : JButton - jButton2 : JButton - jButton3 : JButton - jLabel1 : JLabel - jLabel2 : JLabel - jLabel3 : JLabel - jPanel1 : JPanel - jPanel2 : JPanel - jScrollPane1 : JScrollPane - jTextArea1 : JTextArea
<<model>> DataSekolah - nilaiUN : double - nilaiIIUN : double - nilaiAkreDouble : double - nilaiAkre : String - namaSekolah : String - kodeSekolah : String
-
- btnMasukActionPerformed(ActionEvent) : void
<> Hal_Proses
<> JFrame
- btnLihat : JButton - btnPilihData : JButton - btnProses : JButton - btnBeranda : JButton - btnBantuan : JButton - btnTentang : JButton - jLabel1 : JLabel - jLabel2 : JLabel - jLabel6 : JLabel - jLabel20 : JLabel - jLabel21 : JLabel - jLabel22 : JLabel - jLabel23 : JLabel - jLabel24 : JLabel - labelNotif : JLabel - jPanel1 : JPanel - jPanel2 : JPanel - jPanel3 : JPanel - jPanel4 : JPanel - tabelData : JTable - txtAlfa : JTextField - txtB : JTextField - txtBeta : JTextField - txtJumlaghData : JTextField - txtPilihData : JTextField - hasilSort[] : OutlierFinal[] - jScrollPane1 : JScrollPane - btnSemua : JButton - btnSimpan : JButton - btnSumbit : JButton - btnThreshold : JButton - jLabel3 : JLabel - jLabel8 : JLabel - jLabel9 : JLabel - jLabel18 : JLabel - jPanel5 : JPanel - jPanel8 : JPanel - jPanel9 : JPanel - jScrollPane2 : JScrollPane - jScrollPane3 : JScrollPane - jTable1 : JTable - jTable2 : JTable - txtJumlahData2 : JTextField - txtThreshold : JTextField - btnProsesActionPerformed(ActionEvent) : void - btnPilihDataActionPerformed(ActionEvent) : void - btnLihatActionPerformed(ActionEvent) : void - pilihFile() : void - btnSubmitActinPerformed(ActionEvent) : void - btnSimpanActinPerformed(ActionEvent) : void - btnSemuaActinPerformed(ActionEvent) : void - btnThresholdActinPerformed(ActionEvent) : void
<> OutlierControl - count[] : int - k[][] : HasilCluster - test[][] : HasilCluster - diff[] : double - mLamaUN[] : double - mBaruUN[] : double - mLamaIIUN[] : double - mBaruIIUN[] : double - mBaruAkre[] : double - jmAnggotaUN1[] : int - jmlAnggotaUN2[] : int - jmAnggotaIIUN1[] : int - jmlAnggotaIIUN2[] : int - jmAnggotaAkre1[] : int - jmlAnggotaAkre2[] : int + cal_diff(double a, int p, double m[]) : int + cal_mean(int p, int n, double m[]) : double[] + check1(int p, int n, HasilCluster[][] tempk) : int + ClusterUN(ArrayList listNilai, int p) : HasilCLuster[][] + ClusterIIUN(ArrayList listNilai, int p) : HasilCLuster[][] + ClusterAkreditasi(ArrayList listNilai, int p) : HasilCLuster[][] + search(int[] data, int key) : int + bagiCluster(int b, double alfa, int beta, int[] jml, int n) : boolean + RelativeDistance(HasilCluster[][] listData, int idx, double centro, int jmlAnggota, String kodeSekolah) : double + distance(HasilCluster data, double centro) : double + bubbleSort(int[] numero, Comparator comp) : void + findIndexCluster(String kodeSekolah, HasilCluster[][] hasil, int p) : int + NCBLOF(double relative, int jml) : double + MinCj(int newB, String kodeSekolah, HasilCluster[][] hasil, double[] centro, int idx) : int + Similar(HasilCluster[][] data, double centro, int idx, String kodeSekolah) : double + CBLOFBesar(int jmlAnggota, double hasil) : double + CBLOFKecil(int jmlAnggota, int newB, String kodeSekolah, HasilCluster[][] hasil, double[] centro, int idx) : double + Normalisasi(double[][] data, int n, int jmlAtribut) : double[][] + max(double[][] data, int j, int n) : double + min(double[][] data, int j, int n) : double + BobotEntropy(double[][] data, int jmlAtribut, int k, int n) : double[][] + hasilOF(double[][] normData, double[] w, int n, int jmlAtribut) : double[] + bubbleSortObject(OutlierFinal[] hasil) : OutlierFinal[] + simpanOF(JTable jtable) : void
+ DataSekolah() : <> + DataSekolah(String kodeSekolah, String namaSekolah, double nilaiUN, double nilaiIIUN, String nilaiAkre) : <> + getNilaiAkreDouble() : double + setNilaiAkreDouble(double nilaiAkreDouble) : void + getKodeSekolah() : String + setKodeSekolah(String kodeSekolah) : void + getNamaSekolah() : String + setNamaSekolah(String namaSekolah) : void + getNilaiUN() : double + setNilaiUN(double nilaiUN) : void + getNilaiIIUN() : double + setNilaiIIUN(double nilaiIIUN) : void + getNilaiAkre() : String + setNilaiAkre(String nilaiAkre) : void
<<model>> HasilCluster - kodeSekolah : String - nilai : double + HasilCluster() : <> + HasilCluster(String kodeSekolah, double nilai) : <> + getKodeSekolah() : String + setKodeSekolah(String kodeSkeolah) : void + getNilai() : double + setNilai(double nilai) : void
<<model>> OutlierFinal - namaSekolah : String - kodeSekolah : String - nilaiUN : double - nilaiIIUN : double - nilaiAkre : double - OF : double - nilaiAkreString : String + OutlierFinal() : <> + getOF() : double + setOF(double OF) : void + getNamaSekolah() : String + setNamaSekolah(String namaSekolah) : void + getKodeSekolah() : String + setKodeSekolah(String kodeSekolah) : void + getNilaiUN() : double + setNilaiUN(double nilaiUN) : void + getNilaiIIUN() : double + setNilaiIIUN(double nilaiIIUN) : void + getNilaiAkre() : double + setNilaiAkre(double nilaiAkre) : void + getNIlaiAkreString() : String + setNilaiAkreString(String nilaiAkreString) : void
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
LAMPIRAN 6 : ALGORITMA PER METHOD
Nama Method
Fungsi Method
Algoritma Method
cal_diff(double a, int p, Menghitung jarak 1. Selama indeks ke-i kurang dari p, maka lakukan : a. Jika nilai a lebih besar m[i], maka nilai diff[i] = a – m[i]. double m[]) terdekat b. Jika nilai a kurang dari m[i], maka nilai diff[i] = m[i] – a. 2. Membuat variabel val = 0, dan temp = diff[0]. 3. Selama indeks ke-i kurang dari p, maka lakukan : a. Jika niali diff[i] kurang dari temp, maka temp = diff[i], dan val = i. 4. Mengembalikan nilai val. cal_mean(int p, int n, Menghitung 1. Selama indeks ke-i kurang dari p, maka lakukan : a. m[i] = 0. double m[]) centroid 2. Membuat variabel cnt = 0 dan tempM[] sepanjang nilai p. 3. Menghitung nilai centroid tiap klaster. 4. Mengembalikan nilai variabel tempM. check1(int p, int n, Mengecek 1. Perulangan untuk 2 dimensi : keanggotaan tiap a. Jika kode sekolah dari tempk tidak sama dengan kode sekolah dari k, maka HasilCluster[][] tempk) cluster terjadi mengembalikan nilai 0. perubahan atau b. Jika kode sekolah dari tempk dan k memiliki kesamaan maka mengembalikan nilai 1. tidak. ClusterUN(ArrayList listNilai, int p)
Proses clustering atribut nilai Ujian Nasional (UN)
1. 2. 3. 4. 5.
Membuat variabel n dengan nilai listNilai.size(). Inisialisasi obyek k, dan test dari HasilCluster[][] sepanjang p dan n. Membuat obyek dari HasilCluster[][] dengan nama tempk sepanjang p dan n. Inisialisasi atribut mLamaUN, mBaruUN, dan diff sepanjang p. Inisialisasi atribut count sepanjang n. 103
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ClusterIIUN(ArrayList listNilai, int p)
Proses clustering atribut nilai Indeks Integritas Ujian Nasional (IIUN)
6. Inisialisasi nilai awal centroid (mLamaUN) dari nilai UN. 7. Membuat variabel temp dan flag, masing-masing bernilai 0. 8. Selama flag bernilai 0, maka lakukan : a. Set nilai awal k dan test dengan nilai -1 b. Cari obyek dengan jarak terdekat menggunakan method cal_diff c. Set kode sekolah dan nilai dari obyek k dengan indeks temp dan index. 9. Hitung centroid baru dengan menggunakan method cal_mean, ditampung pada variabel mLamaUN 10. Cek keanggotaan klaster dengan menggunakan method check1, ditampung pada variabel flag 11. Jika flag tidak bernilai 1 maka : a. Set kode sekolah dan nilai dari obyek tempk dengan nilai dari obyek k 12. Sorting hasil cluster dari obyek k. 1. Membuat variabel n dengan nilai listNilai.size(). 2. Inisialisasi obyek k, dan test dari HasilCluster[][] sepanjang p dan n. 3. Membuat obyek dari HasilCluster[][] dengan nama tempk sepanjang p dan n. 4. Inisialisasi atribut mLamaIIUN, mBaruIIUN, dan diff sepanjang p. 5. Inisialisasi atribut count sepanjang n. 6. Inisialisasi nilai awal centroid (mLamaIIUN) dari nilai IIUN. 7. Membuat variabel temp dan flag, masing-masing bernilai 0. 8. Selama flag bernilai 0, maka lakukan : a. Set nilai awal k dan test dengan nilai -1 b. Cari obyek dengan jarak terdekat menggunakan method cal_diff c. Set kode sekolah dan nilai dari obyek k dengan indeks temp dan index. 9. Hitung centroid baru dengan menggunakan method cal_mean, ditampung pada variabel mLamaIIUN 10. Cek keanggotaan klaster dengan menggunakan method check1, ditampung pada variabel flag 104
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11. Jika flag tidak bernilai 1 maka : a. Set kode sekolah dan nilai dari obyek tempk dengan nilai dari obyek k 12. Sorting hasil cluster dari obyek k. ClusterAkreditasi(ArrayList Proses clustering 1. Membuat variabel n dengan nilai listNilai.size(). atribut nilai 2. Inisialisasi obyek k, dan test dari HasilCluster[][] sepanjang p dan n. , int p) 3. Membuat obyek dari HasilCluster[][] dengan nama tempk sepanjang p dan n. Akreditasi 4. Membuat variabel idx dengan nilai awal 0. 5. Inisialisasi atribut mBaruAkre, dan diff sepanjang p. 6. Inisialisasi atribut count sepanjang n. 7. Inisialisasi nilai awal centroid (mBaruAkre) dari dengan nilai awal 1, 2, dan 3. 8. Set nilai awal k dan test dengan nilai -1 9. Cari obyek dengan jarak terdekat menggunakan method cal_diff 10. Set kode sekolah dan nilai dari obyek k dengan indeks temp dan index. 11. Sorting hasil cluster dari obyek k. search(int[] data, int key) Pencarian indeks. 1. Selama indeks ke-i kurang dari data.length, maka lakukan : a. Jika data dengan indeks ke-i sama dengan key maka mengembalikan nilai indeks ke-i. b. Jika tidak sama/ tidak ditemukan maka mengembalikan nilai -1. bagiCluster(int b, double Menentukan 1. Membuat variabel hasil dan hasil3 dengan nilai awal yaitu 0. alfa, int beta, int[] jml, int klaster besar dan 2. Menjumlahkan semua jumlah anggota yang kurang dari b. 3. Membuat variabel hasil2 dengan perhitungan alfa dikalikan n (jumlah data). n) klaster kecil 4. Jika nilai hasil lebih besar sama dengan hasil2 maka mengembalikan nilai true, jika tidak, maka lakukan : a. Inisialisasi variabel hasil3 dengan perhitungan jml berindeks b dibagi dengan jml berindeks b+1. b. Jika hasil3 lebih besar sama dengan beta maka mengembalikan nilai true. 5. Jika tidak memenuhi syarat di atas maka mengembalikan nilai false. RelativeDistance(HasilClus Proses 1. Membuat variabel Mean, total, jarak, dan RD dengan masing-masing variabel 105
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ter[][] listData, int idx, menghitung double centro, int relative distance jmlAnggota, String kodeSekolah)
distance(HasilCluster data, Menghitung jarak satu obyek ke double centro) centroid.
findIndexCluster(String kodeSekolah, HasilCluster[][] hasil, int p) NCBLOF(double int jml)
MinCj(int newB, kodeSekolah, HasilCluster[][]
Mencari keberadaan suatu obyek pada beberapa cluster.
bernilai awal yaitu 0. 2. Jumlahkan semua jarak dari setiap obyek dalam satu klaster ke centroid, ditampung pada variabel total 3. Inisialisasi variabel Mean dengan perhitungan total dibagi jmlAnggota 4. Inisialisasi variabel jarak yang menampung hasil dari perhitungan mencari jarak dari obyek yang ditentukan ke centroid dengan menggunakan method distance 5. Inisialisasi variabel RD dengan perhitungan jarak dibagi Mean 6. Mengembalikan nilai RD. 1. Membuat variabel diff dengan nilai awal yaitu 0. 2. Jika nilai lebih besar dari centro maka variabel diff menampung besaran dari perhitungan nilai dikurangi centro. 3. Jika nilai lebih kecil dari centro maka variabel diff meanmpung besaran dari perhitungan centro dikurangi nilai. 4. Mengembalikan variabel diff. 1. Perulangan pada ketiga cluster yang mempunyai kodeSekolah yang sama, jika ditemukan maka mengembalikan nilai klasternya. 2. Jika tidak ditemukan maka mengembalikan nilai -1.
relative, Menghitung 1. Membuat variabel hasil dengan inisialisasi perhitungan jml dikalikan dengan 1 derajat outlier dibagi relative. pada numerical 2. Mengembalikan nilai hasil. data. String Mencari terdekat hasil, obyek
klaster 1. Membuat variabel idex dengan nilai awal yaitu 0. dari 2. Jika jarak dari satu obyek ke centroid pertama lebih kecil dari jarak satu obyek yang ke centroid kedua maka variabel idex menampung indeks centroid pertama, jika tidak maka variabel idex menampung indeks centroid kedua. 106
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
double[] centro, int idx)
ditentukan.
3. Mengembalikan nilai idex.
Similar(HasilCluster[][] Mencari nilai 1. Membuat variabel hasil dan jarak, masing-masing bernilai awal yaitu 0. data, double centro, int idx, kemiripan dari 2. Inisialisasi variabel jarak dengan menampung hasil pencarian besaran jarak satu data ke dari sebuah data ke centroid yang menggunakan method distance. String kodeSekolah) 3. Inisialisasi variabel hasil dengan perhitungan 1 dikurangi jarak. centroid. 4. Mengembalikan nilai hasil. CBLOFBesar(int Menghitung nilai 1. Mengembalikan nilai perhitungan jmlAnggota dikalikan hasil. derajat outlier jmlAnggota, double hasil) kategorikal data yang tergolong klaster besar. CBLOFKecil(int jmlAnggota, int newB, String kodeSekolah, HasilCluster[][] hasil, double[] centro, int idx)
Normalisasi(double[][] data, int n, int jmlAtribut)
Menghitung nilai 1. Membuat variabel newDis dan CBLOF dengan nilai awal yaitu 0. derajat outlier 2. Jika kodeSekolah dari obyek hasil memiliki kesamaan dengan kodeSekolah kategorikal data maka lakukan : yang tergolong a. Jika jarak dari satu obyek ke centroid pertama lebih kecil dari jarak satu obyek ke centroid kedua maka variabel newDis menampung jarak ke klaster kecil. centroid pertama, jika tidak maka variabel newDis menampung jarak ke centroid kedua. 3. Mengembalikan nilai CBLOF dengan perhitungan jmlAnggota dikalikan newDis. Menghitung 1. Membuat variabel newdata untuk menampung semua data yang sudah normalisasi dari dinormalisasi. derajat outlier per 2. Membuat variabel newmax dengan nilai awal yaitu 5, dan newmin dengan nilai atribut yang awal yaitu 1. sudah ditemukan. 3. Cari nilai max (tertinggi) dari sebuah data per atribut dengan menggunakan method max. 4. Cari nilai min (terendah) dari sebuah data per atribut dengan menggunakan 107
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
max(double[][] data, int j, Mencari maximal int n) (tertinggi) atribut.
nilai
min(double[][] data, int j, Mencari minimal int n) (terendah) atribut.
nilai
per
per
BobotEntropy(double[][] Menghitung data, int jmlAtribut, int k, bobot default per atribut int n) menggunakan metode Entropy.
method min. 5. Inisialisasi variabel newdata dengan menampung hasil perhitungan (((data – min)/ (max-min)) * (newmax-newmin)) + newmin. 6. Mengembalikan variabel newdata. 1. Membuat variabel max dengan nilai awal yaitu 0. 2. Terjadi perulangan sebanyak jumlah data, selama indeks ke-i kurang dari jumlah data (n) maka lakukan : a. Jika data lebih besar dari max maka inisialisasi variabel max dengan menampung nilai data tersebut. 3. Mengembalikan variabel max. 1. Membuat variabel min dengan nilai awal yaitu data dengan indeks ke 0 dan j. 2. Terjadi perulangan sebanyak jumlah data, selama indeks ke-i kurang dari jumlah data (n) maka lakukan : a. Jika min lebih besar dari data maka inisialisasi variabel min dengan menampung nilai data tersebut. 3. Mengembalikan variabel min. 1. Membuat variabel w[] dan f[] sepanjang nilai jmlAtribut. 2. Membuat variabel ftotal dengan nilai awal yaitu 0. 3. Selama indeks ke-i kurang dari jmlAtribut maka lakukan: a. Membuat variabel ln dan entro, masing-masing bernilai awal yaitu 0. b. Selama indeks ke-j kurang dari jumlah data (n), maka melakukan penjumlahan dengan data * ln data yang ditampung pada variabel ln. c. Inisialisasi variabel entro dengan perhitungan –k * ln. d. Inisialisasi variabel f dengan perhitungan 1 – entro. e. Penjumlahan semua nilai f yang ditampung pada variabel ftotal. 4. Proses pembagian sesuai dengan atributnya dengan perhitungan nilai f dibagi ftotal yang ditampung pada variabel w. 5. Mengembalikan variabel w. 108
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
hasilOF(double[][] Menghitung 1. Membuat variabel hasilOF[] sepanjang nilai n. normData, double[] w, int derajat outlier 2. Selama indeks ke-i kurang dari jumlah data (n) maka lakukan : a. Membuat variabel of dengan nilai awal yaitu 1. n, int jmlAtribut) final per obyek. b. Selama indeks ke-j kurang dari jmlAtribut maka melakukan proses perkalian of dengan normData yang dipangkatkan oleh w, kemudian ditampung pada variabel of. c. Inisialisasi variabel hasilOF dengan nilai of. 3. Mengembalikan variabel hasilOF. Menyimpan hasil 1. Membuat obyek frame dari Jframe. simpanOF(Jtable jtable) deteksi outlier ke 2. Membuat obyek fileChooser dari JfileChooser dengan menggunakan parameter file berbentuk File. Microsoft Excel 3. SetFileFilter menggunakan obyek fileChooser. dengan ekstensi 4. Menampilkan kotak dialog pemilihan direktori menggunakan showSaveDialog. 5. Simpan sesuai jumlah kolom dan baris pada tabel. .xls
109
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
LAMPIRAN 7 : PROSEDUR PENGUJIAN DAN KASUS UJI Identifikasi Use Case UC1-01
UC1-02
UC2-01
Deskripsi
Prosedur Pengujian
Pengujian 1. Jalankan sistem memilih data 2. Pada halaman dari direktori awal, tekan berupa file tombol “Masuk Sistem” bertipe .xls 3. Pada halaman Pengujian preprocessing, memilih data tekan tombol dari direktori “Pilih Data” berupa file 4. Pilih file yang selain bertipe akan dimasukkan .xls 5. Tekan tombol “OK” Pengujian 1. Data sudah memasukkan tertampil pada nilai yang tabel data di sesuai halaman sehingga preprocessing proses deteksi 2. Memasukkan nilai variabel b, dapat berjalan Alfa, dan Beta
Masukkan Tester.xls
Keluaran yang diharapkan Data pada file Tester.xls ditampilkan pada tabel data di halaman preprocessing
Hasil yang didapatkan
Catatan Proses Pengembangan
Data pada file Tidak diperbaiki Tester.xls tertampilkan pada tabel data di halaman preprocessing
Tester.docx, Muncul Muncul Tidak diperbaiki pemberitahuan pemberitahuan Tester.doc bahwa tipe file yang bahwa tipe file yang dimasukkan tidak dimasukkan tidak sesuai sesuai
Proses deteksi dapat berjalan. Derajat outlier tertampil pada tabel di frameDeteksi, dan mengubah notifikasi menjadi “Selesai”.
b:2
Alfa : 70
Beta : 3
110
Proses deteksi dapat Tidak diperbaiki berjalan. Derajat outlier tertampil pada tabel di frameDeteksi, dan mengubah notifikasi menjadi “Selesai”.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
UC2-02
Pengujian terjadi kesalahan dalam memasukkan nilai
3. Tekan Proses
tombol 1. b : 4 Alfa : 70 Beta : 3
2. b : 2 Alfa : 80 Beta : 3
UC3-01
Pengujian 1. Proses deteksi Nama File : menyimpan sudah berhasil CobaSemua hasil deteksi dilakukan 111
Proses deteksi tidak dapat berjalan, karena jumlah nilai variabel b yang dimasukkan melebihi jumlah yang ditetapkan.
Proses deteksi tidak Tidak diperbaiki dapat berjalan, karena jumlah nilai variabel b yang dimasukkan melebihi jumlah yang ditetapkan.
Muncul pemberitahuan “Pengisian b tidak memenuhi syarat”.
Muncul pemberitahuan “Pengisian b tidak memenuhi syarat”
Proses deteksi tidak dapat berjalan, karena nilai variabel Alfa dan Beta tidak memenuhi syarat persamaan untuk pembagian klaster.
Proses deteksi tidak dapat berjalan, karena nilai variabel Alfa dan Beta tidak memenuhi syarat persamaan untuk pembagian klaster.
Tidak diperbaiki
Muncul Muncul pemberitahuan pemberitahuan “Ulangi pengisian b, “Ulangi pengisian b, Alfa, dan Beta”. Alfa, dan Beta”. File tersimpan pada File tersimpan pada Tidak diperbaiki direktori direktori
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
UC3-02
semua sekolah 2. Tekan tombol ke dalam file “Simpan” 3. Tekan tombol bertipe .xls “Semua” 4. Memilih direktori penyimpanan di D: Pengujian 1. Proses deteksi menyimpan sudah berhasil hasil deteksi dilakukan beberapa 2. Memasukkan sekolah ke nilai Threshold dalam file 3. Tekan tombol “Submit” bertipe .xls 4. Tekan tombol “Simpan” 5. Tekan tombol “Threshold” 6. Memilih direktori penyimpanan di D:
D:/CobaSemua.xls
D:/CobaSemua.xls
File tersimpan pada direktori D:/CobaThreshold.xl s
File tersimpan pada Tidak diperbaiki direktori D:/CobaThreshold.xl s
Tipe file : .xls
Nama File : CobaThresh old
Tipe file : .xls
112
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
LAMPIRAN 8 : HITUNG MANUAL PENAMBANGAN DATA
Proses penambangan data memiliki beberapa tahapan. Dalam melakukan proses penghitungan manual ini menggunakan aplikasi Microsoft Excel sebagai alat bantu penghitungan. Metodologi dalam penggunaan algortima MixCBLOF dibagi menjadi 2 tahapan, yaitu : 1. Clustering data-data sekolah per atribut Metode clustering yang digunakan untuk menangani data-data sekolah menggunakan metode K-Means, dengan langkah sebagai berikut : a. Tentukan nilai jumlah cluster, dan posisi centroid b. Alokasikan semua data ke centroid terdekat dengan menghitung metrik jarak c. Hitung kembali centroid/ pembaruan nilai centroid dari masing-masing cluster d. Ulangi langkah b dan c jika masih terjadi perubahan posisi anggota cluster berpindah ke cluster yang lain. Pada proses clustering ini digunakan nilai jumlah cluster sebesar tiga cluster sesuai dengan jumlah nilai dari atribut Akreditasi. Nilai centroid awal diisi dengan nilai tiga data awal per atribut kecuali pada atribut akreditasi diisi dengan nilai centroid pertama sebesar satu, nilai centroid kedua sebesar dua, dan nilai centroid ketiga sebesar tiga. Hasil dari clustering pada lima belas data sampel dapat dilihat pada tabel berikut. 1. Atribut nilai UN Cluster
C1
Nama Sekolah
Nilai
1. SMA PEMBANGUNAN 2 KARANGMOJO 2. SMA
291.87
113
Centroid
Jumlah Anggota
288.4744
9
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3. 4. 5. 6. 7. 8. 9.
MUHAMMADIYAH WONOSARI SMAN 1 PLAYEN SMAN 1 PANGGANG SMA 1 TANJUNGSARI SMA 1 SEMANU SMA DOMINIKUS WONOSARI MAN WONOSARI SMA MUHAMMADIYAH PAKEM
289.46
311.9 316.17 303.49 295.04 244.57
300.01 243.76
C2
1. 2. 3. 4. 5.
SMAN 2 PLAYEN SMAN 1 RONGKOP SMAN 1 PATUK SMA 1 SEMIN SMAN KARANGMOJO
363.74 359.62 1
338.68
347.464
5
352.31 322.97
C3
1. SMAN 2 WONOSARI
2. Atribut Nilai IIUN 1. SMAN 2 WONOSARI 2. SMAN 2 PLAYEN 3. SMAN 1 KARANGMOJO 4. SMAN 1 PATUK 5. SMA MUHAMMADIYAH C1 WONOSARI 6. SMA 1 SEMIN 7. SMA 1 TANJUNGSARI 8. SMA PEMBANGUNAN 2 KARANGMOJO
114
422.32
422.32
1
80.77 80.61 79.33 79.40375 80.2 78.6
8
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
79.82 78.57 77.33
C2
1. 2. 3. 4.
SMAN 1 PLAYEN SMAN 1 PANGGANG SMA 1 SEMANU MAN WONOSARI
84.31 82.69 83.39
4
73.94333
3
1
14
83.92 82.64
C3
1. SMAN 1 RONGKOP 2. SMA DOMINIKUS WONOSARI 3. SMA MUHAMMADIYAH PAKEM
3. Atribut Nilai Akreditasi 1. SMAN 2 WONOSARI 2. SMAN 2 PLAYEN 3. SMAN 1 KARANGMOJO 4. SMA PEMBANGUNAN 2 KARANGMOJO 5. SMAN 1 RONGKOP 6. SMAN 1 PATUK 7. SMA MUHAMMADIYAH WONOSARI 8. SMAN 1 PLAYEN 9. SMAN 1 PANGGANG C1 10. SMA 1 SEMIN 11. SMA 1 TANJUNGSARI 12. SMA 1 SEMANU 13. SMA DOMINIKUS WONOSARI 14. MAN WONOSARI
75.43 72.4
74 A A A
A
A A A
A A A A 115
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
A A
A C2 C3
1. SMA MUHAMMADIYAH PAKEM -
B
2
1
-
3
-
2. Pendeteksian menggunakan algoritma MixCBLOF Setelah cluster dari setiap atribut sudah ditemukan, maka ada beberapa langkah yang harus dilakukan dalam pendeteksian outlier sebagai berikut : a. Penentuan Klaster Besar (LC) dan Klaster Kecil (SC) Nilai parameter b, Alfa, dan Beta yang diberikan oleh user akan diproses pada bagian ini. Dalam penghitungan manual ini diberikan nilai b sebesar dua, Alfa sebesar 70%, dan Beta sebesar 3. Ketiga parameter tersebut dapat digunakan karena memenuhi salah satu rumus yang dapat dilihat rumus 2.1 dan rumus 2.2. Klaster besar terdiri dari klaster pertama dan klaster kedua, sedangkan klaster kecil terdiri dari klaster ketiga.
b. Pencarian derajat outlier per Atribut Pada pencarian derajat outlier per atribut ini menggunakan metode NCBLOF untuk data berupa numerical, sedangkan metode CBLOF untuk data berupa kategorikal. Untuk rumus dari NCBLOF dapat dilihat pada rumus 2.3, sedangkan untuk rumus dari CBLOF dapat dilihat pada rumus 2.4. Hasil dari penghitungan pencarian derajat outlier per atribut dapat dilihat pada tabel berikut : 116
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Nama Sekolah
UN
IIUN
Akre
5
5.540714
14
SMAN 2 PLAYEN
4.089211
6.275648
14
SMAN 1 KARANGMOJO
2.717237
102.6441
14
52.19637
3.650392
14
2.475156
10.99297
14
SMAN 1 PATUK
7.576958
9.507064
14
SMA MUHAMMADIYAH WONOSARI SMAN 1 PLAYEN
179.8275
9.418351
14
7.565996
3.152174
14
6.3995
4.142857
14
SMA 1 SEMIN
13.73421
18.18619
14
SMA 1 TANJUNGSARI
11.80359
9.07946
14
SMA 1 SEMANU
26.99494
5.471698
14
SMA DOMINIKUS WONOSARI MAN WONOSARI
4.036907
6.237135
14
15.36444
3.866667
14
SMA MUHAMMADIYAH PAKEM
3.963779
8.083892
1
SMAN 2 WONOSARI
SMA PEMBANGUNAN KARNGMOJO SMAN 1 RONGKOP
2
SMAN 1 PANGGANG
c. Normalisasi Tahap normalisasi ini menggunakan metode Min-max. Rumus dari metode min-max. Hasil normalisasi dari derajat outlier per atribut dapat dilihat pada tabel berikut.
Nama Sekolah
UN
IIUN
Akre
SMAN 2 WONOSARI
1.025777873
1.04801476
3
SMAN 2 PLAYEN
1.015492881
1.06278851
3
117
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
SMAN 1 KARANGMOJO
1
3
3 3
SMA PEMBANGUNAN 2 KARNGMOJO SMAN 1 RONGKOP
1.55873815
1.01001525
1.031143527
1.15761688
SMAN 1 PATUK
1.054877913
1.1277469
3
SMA MUHAMMADIYAH WONOSARI SMAN 1 PLAYEN
3
1.12596358
3
1.054754126
1
3
SMAN 1 PANGGANG
1.041581589
1.01991485
3
SMA 1 SEMIN
1.124408103
1.30221582
3
SMA 1 TANJUNGSARI
1.102606738
1.11915114
3
SMA 1 SEMANU
1.274153556
1.0466274
3
SMA DOMINIKUS WONOSARI MAN WONOSARI
1.014902247
1.06201432
3
1.142817235
1.01436283
3
SMA MUHAMMADIYAH PAKEM
1.014076452
1.0991381
1
d. Penentuan bobot Entropy Penentuan bobot menggunakan metode Entropy dengan rumus yang dapat dilihat pada rumus 2.6. Hasil bobot dengan menggunakan metode Entropy dapat dilihat pada tabel berikut.
W1
0.09316712
W2
0.08667666
W3
0.82015622
118
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
e. Pencarian derajat Outlier Final Proses penghitungan derajat outlier final menggunakan rumus yang dapat dilihat pada rumus 2.7. Hasil akhir derajat outlier final dapat dilihat pada tabel berikut.
Nama Sekolah
Derajat OF
SMAN 2 WONOSARI
2.4780
SMAN 2 PLAYEN
2.4787
SMAN 1 KARANGMOJO
2.7081
SMA PEMBANGUNAN KARNGMOJO SMAN 1 RONGKOP SMAN 1 PATUK
2 2.5683 2.5007 2.5004
SMA MUHAMMADIYAH 2.7557 WONOSARI SMAN 1 PLAYEN 2.4744 SMAN 1 PANGGANG
2.4757
SMA 1 SEMIN
2.5468
SMA 1 TANJUNGSARI
2.5090
SMA 1 SEMANU
2.5283
SMA DOMINIKUS 2.4784 WONOSARI MAN WONOSARI 2.4960 SMA PAKEM
MUHAMMADIYAH 1.0095
Berdasarkan hasil perhitungan di atas, dapat dilihat setiap sekolah sudah mempunyai derajat outlier masing-masing, sehingga untuk penentuan jumlah sekolah yang teridentifikasi sebagai outlier memiliki jumlah sesuai keinginan user berdasar nilai derajat outlier terendah. 119