ANALISIS SUBSPACE CLUSTERING MENGGUNAKAN DBSCAN DAN SUBCLU UNTUK PROYEKSI PEKERJAAN ALUMNI PERGURUAN TINGGI
TESIS
ANNI ROTUA ARITONANG 117038064
PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2013
Universita Sumatera Utara
ANALISIS SUBSPACE CLUSTERING MENGGUNAKAN DBSCAN DAN SUBCLU UNTUK PROYEKSI PEKERJAAN ALUMNI PERGURUAN TINGGI
TESIS Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika
ANNI ROTUA ARITONANG 117038064
PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2013
Universita Sumatera Utara
PERSETUJUAN
: ANALISIS SUBSPACE CLUSTERING
Judul
MENGGUNAKAN DBSCAN DAN SUBCLU UNTUK PROYEKSI PEKERJAAN ALUMNI PERGURUAN TINGGI Kategori
: Tesis
Nama
: Anni Rotua Aritonang
Nomor Induk Mahasiswa
: 117038064
Program Studi
: S2 Teknik Informatika
Fakultas
: Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara
Komisi Pembimbing
:
Pembimbing 2
Dr. Poltak Sihombing, M.Kom
Pembimbing 1
Dr. Sutarman, M.Sc
Diketahui/Disetujui oleh Program Studi S2 Teknik Informatika Ketua
Prof. Dr. Muhammad Zarlis 195707011986011003
Universita Sumatera Utara
PERNYATAAN
ANALISIS SUBSPACE CLUSTERING MENGGUNAKAN DBSCAN DAN SUBCLU UNTUK PROYEKSI PEKERJAAN ALUMNI PERGURUAN TINGGI
TESIS
Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 28 Agustus 2013
Anni Rotua Aritonang NIM. 117038064
Universita Sumatera Utara
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, Saya yang bertanda tangan di bawah ini : Nama NIM Program Studi Jenis Karya Ilmiah
: ANNI ROTUA ARITONANG : 117038064 : S2 TEKNIK INFORMATIKA : TESIS
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty Free Right) atas tesis saya yang berjudul :
ANALISIS SUBSPACE CLUSTERING MENGGUNAKAN DBSCAN DAN SUBCLU UNTUK PROYEKSI PEKERJAAN ALUMNI PERGURUAN TINGGI Beserta perangkat yang ada (jika diperlukan). Dengan hak Bebas Royalti NonEksklusif ini, Universitas Sumatera Utara Berhak menyimpan, mengalih media, menformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta. Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, 28 Agustus 2013
Anni Rotua Aritonang NIM. 117038013
Universita Sumatera Utara
Telah diuji pada Tanggal : 28 Agustus 2013
PANITIA PENGUJI TESIS Ketua
: Dr. Poltak Sihombing, M.Kom
Anggota
: Dr. Sutarman, M.Sc 1. Prof. Dr. Muhammad Zarlis 2. Dr. Erna Budhiarti Nababan, M. IT 3. Dr. Zakarias Situmorang, MT
Universita Sumatera Utara
RIWAYAT HIDUP
DATA PRIBADI Nama
: Anni Rotua Aritonang
TempatdanTanggalLahir
: Tarutung, 03 Oktober 1980
AlamatRumah
: Jln. Pelangi No.42 Medan
Telepon
: 081361415445
E-Mail
:
[email protected]
Instansitempatbekerja
: SMK Negeri 10 Medan
Alamat Kantor
: Jln. T. Cik.Ditiro
Teleponkantor
: 061 4536534
DATA PENDIDIKAN SD
: Inpres
Tamat: 1992
SLTP
: Negeri3 Tarutung
Tamat: 1996
SLTA
: HKBP 1 Tarutung
Tamat: 1998
Strata-1
: STMIK Sisingamangaraja XII
Tamat: 2008
S-2
: Teknik Informatika USU
Tamat : 2013
Universita Sumatera Utara
Universita Sumatera Utara
ABSTRAK
Subspace clustering diproyeksikan sebagai teknik pencarian untuk mengelompokkan data atau atribut pada klaster yang berbeda, Pengelompokan dilakukan dengan menentukan tingkat kerapatan data dan juga mengidentifikasi outlier atau data yang tidak relevan, sehingga masingmasing cluster ada dalam subset tersendiri. Tesis ini mengusulkan inovasi algoritma subspace clustering based on density connection. Pada tahap awal akan dihitung kerapatan dimensi, hasil kerapatan dimensi akan dijadikan data masukan untuk menentukan klaster awal yang berdasarkan kerapatan dimensi, yakni dengan menggunakan Algoritma DBSCAN. Data pada setiap klaster kemudian akan diuji apakah memiliki hubungan dengan data pada klaster yang lain, yakni dengan menggunakan Algoritma SUBCLU. Hasil dari penelitian ini ditemukan bahawa SUBCLU tidak memiliki un-cluster dataset nyata, sehingga persepsi hasil cluster akan menghasilkan informasi yang lebih akurat sedangkan untuk kepuasan kerja dataset DBSCAN membutuhkan waktu lebih lama daripada metode SUBCLU. Untuk lebih besar dan lebih kompleks data, kinerja SUBCLU terlihat lebih efisien daripada DBSCAN. Key Word : Subspace clustering, DBSCAN, SUBCLU.
Universita Sumatera Utara
SUBSPACE CLUSTERING ANALYSIS USING DBSCAN AND SUBCLU FOR PROJECTING COLLEGE ALUMNI JOB
ABSTRACT
Subspace clustering is projected as a search technique to classify the data or attributes in different clusters, grouping is done by determining the density of data and also identify outliers or data that is not relevant, so that each cluster exists in its own subset. This thesis proposes innovation subspace clustering algorithm based on density connection. In the early stages will be counted dimensional density, density results will be used as input data dimensions to determine the initial clusters based on density-dimensional, ie, by using the DBSCAN algorithm. Data on each cluster will then be tested whether having a relationship with the other data on the cluster, by using Algorithm SUBCLU.Results of this study found bahawa SUBCLU not have an unclustered real dataset, so the perception of the results of the cluster will produce more accurate information for job satisfaction dataset whereas DBSCAN takes more time than the method SUBCLU. For larger and more complex the data, the performance SUBCLU looks more efficient than DBSCAN. Key Word : Subspace clustering, DBSCAN, SUBCLU.
Universita Sumatera Utara
KATA PENGANTAR
Terpujilah Tuhan yang telah melimpahkan rahmat dan kasihNya sehingga penulis dapat menyelesaikan penyusunan tesis ini dengan baik. Tesis ini merupakan salah satu syarat untuk menyelesaikan studi pada magister Teknik Informatika Universitas Sumatera Utara, adapun judul tesis ini adalah “ANALISIS SUBSPACE CLUSTERING MENGGUNAKAN DBSCAN DAN SUBCLU UNTUK PROYEKSI PEKERJAAN ALUMNI PERGURUAN TINGGI”. Penulis menyadari sepenuhnya bahwa tulisan ini masih jauh dari sempurna, untuk itu penulis mengharapkan kritik dan saran yang membangun demi kesempurnaan tesis ini. Pada kesempatan ini dengan segala kerendahan hati dan ketulusan hati, penulis ingin menyampaikan ucapan terima kasih yang sebesar-besarnya kepada: 1. Bapak Dekan Prof. Dr. Muhammad Zarlis dan sekaligus sebagai penguji yang telah banyak membimbing dan memberi masukan kepada penulis 2. Bapak Dr. Poltak Sihombing, M.kom selaku pembimbing I dan bapak Dr. Sutarman M,Sc selaku pembimbing II, yang selama ini telah memberikan waktu dan bimbingan, saran dan masukan yang membangun dan mengarahkan penulisan ini ke arah yang lebih baik. 3. Ibu Dr. Erna Budhiarti Nababan,M.TI dan bapak Dr. Zakarias Situmorang, MT selaku penguji yang telah memberikan kritikan dan saran yang membangun yang sangat berguna dalam perbaikan penulisan tesis ini. 4. Bapak Andri, M.Com selaku sekretaris Jurusan magister S2 Teknik Informatika yang telah banyak memberi masukan kepada penulis selama perkuliahan, kepada para dosen yang selama perkuliahan telah memberikan ilmunya kepada penulis, 5. Kepada para pegawai di Fakultas Ilmu Komputer khususnya program studi S2 Teknik informatika yang telah banyak membantu dalam pengurusan administrasi. 6. Terima kasih tak terhingga buat seluruh keluarga yang selalu memberikan dukungan dan jadi penyemangat serta mendoakan penulis, khusunya ibunda tercinta R. Br. Simorangkir, Kakak, abang dan adek yang terkasih yang telah memberikan dukungan dan semangat kepada penulis.
Universita Sumatera Utara
7. Teman-teman di S2 TI dan para sahabat saya yang telah banyak memberikan masukan dan dukungan kepada penulis, teman-teman di Israfel Choir HKBP Sudirman yang selalu memberi semangat dan mendoakan penulis.
Penulis menyadari masih banyak kekurangan dalam penulisan tesis ini, oleh karena itu penulis menerima saran dan masukan yang bersifat membangun untuk pengembangan tesis ini. Semoga tesis ini berguna bagi pembaca. Semoga semua pertolongan yang telah diterima penulis dibalas oleh Tuhan Yang Maha Pengasih dengan berkat yang berlimpah. Akhir kata penulis mengucapkan banyak terima kasih.
Universita Sumatera Utara
DAFTAR ISI
PERSETUJUAN PERNYATAAN PERNYATAAN PERSETUJUAN PUBLIKASI ILMIAH UNTUK KEPENTINGAN AKADEMIS PENETAPAN PANITIA PENGUJI TESIS RIWAYAT HIDUP KATAPENGANTAR DAFTAR ISI
i iii
DAFTAR GAMBAR
v
DAFTAR TABEL
vii
ABSTRAK
viii
ABSTRACT
ix
BAB 1 PENDAHULUAN 1.1 Latar Belakang
1
1.2 Perumusan Masalah
1
1.3 Batasan Masalah
3
1.4 Tujuan Penelitian
2
1.5 Manfaat Penelitian
4
BAB 2 TINJAUAN PUSTAKA 2.1
Pendahuluan
5
2.2
Fungsi dan Tugas Data Mining
8
2.3
TeknikPertambanganData DanAplikasinya
9
2.4
Klustering
10
2.5
Algoritma Clustering
11
2.6
Subspace Clustering
13
2.7
DBSCAN
14
2.8
SUBCLU
15
Universita Sumatera Utara
BAB III METODELOGI PENELITIAN 3.1
Pendahuluan
17
3.2
Subjek Penelitian
17
3.3
Rancangan Penelitian
17
3.4
Alur Kerja Aplikasi
18
3.5
Multidimensi dan Analisis strategi data
18
3.6
Analisis Klustering data
19
3.7
Analisis Clustering
20
3.7.1. Analisis Subspace Clustering
22
3.7.2Subspace Cluster Berbasiskan Density Connection
22
Kepadatan Data
24
3.8
BAB IV HASIL DAN PEMBAHASAN 4.1
Implementasi Data
27
4.1.1 Analisis Clustering
27
4.1.2 Subspace Clustering berbasis density Conection
27
4.2
Hasil Penelitian
33
4.3
Evaluasi Kinerja
45
4.3.1 Efisiensi Kerja
45
4.3.2 Data Akurat
46
BAB V KESIMPULAN DAN SARAN 5.1
Kesimpulan
48
5.2
Saran
49
DAFTAR PUSTAKA
50
Universita Sumatera Utara
DAFTAR GAMBAR
Gambar 2.1 Struktur sistem datamining
5
Gambar 2.2 Tahapan proses sistem
5
Gambar 2.3 Struktur data mining taksonomi
9
Gambar 2.4 Teknik dalam data mining
10
Gambar 2.5 Contoh dalam clustering
12
Gambar 2.6 Proses clustering data
14
Gambar 2.7 Eps-neighborhood.
16
Gambar 3.7
Strategianalisisdata miningmultidimensiPenelitian
20
Gambar3.8
Analisa strategi data mining
21
Gambar 3.9
Inisialisasi Kluster
22
Gambar 3.10
Langka-langkah Penelitian
24
Gambar 3.11
Density Based Cluster
25
Gambar 3.12
Kepadatan data yang saling terhubung
26
Gambar4.1
Data1dimensimenggunakanDBSCAN
31
Gambar4.1
Terpisahmultidimensimenjadi 1-dimensi
33
Gambar 4.3
Distribusi Data Dataset
34
Gambar 4.4
Distribusi Data dataset kerja memenuhi sesuai bidang kompetensi
35
Gambar 4.5
Distribusi Data Mahasiswa Medicom tahun 2005
36
Gambar4.6
DistribusiData Mahasiswa Medicom tahun 2006
37
Gambar4.7
DistribusiData Mahasiswa Medicom tahun 2007
37
Gambar4.8
DistribusiData Mahasiswa Medicom tahun 2008
38
Gambar4.9
DistribusiData Mahasiswa Medicom tahun 2009
38
Gambar4.10
DistribusiData Mahasiswa Medicom tahun 2010
39
Gambar4.11
Jumlah cluster dataset secara realtime
40
Gambar 4.12
Pengelompokandatasetcluster denganFIRES
41
Gambar 4.13
Pengelompokan dataset cluster dengan INSCY
41
Gambar 4.14
Pengelompokan dataset berdasarkan SUBCLU
41
Gambar 4.15
Pengelompokan data menurut kualifikasi ketepatan serapan kerjaan menggunakan fires
42
Universita Sumatera Utara
Gambar 4.16
Pengelompokan data menurut kualifikasi ketepatan serapan kerjaan menggunakan DB-SCAN
Gambar 4.18
42
Pengelompokan data menurut kualifikasi ketepatan serapan kerjaan menggunakan Subclu
42
Gambar 4.17
JumlahclusterTertinggidatasetmenurut alumni
43
Gambar 4.18
DataA-cluster datasetnyata
43
Gambar 4.19
DataUn-cluster yang lebih tinggidatasetPerguruan tinggi
44
Gambar 4.20
Waktu prosespengelompokandatasetnyata
44
Gambar 4.21
Waktu prosesdaripengelompokanyang tertinggi
Gambar 4.22
dari datasetlembaga pendidikan
46
Hasil akurasidataset
47
Universita Sumatera Utara
DAFTAR TABEL Tabel 2.1
Beberapa permasalahan dalam lingkup pribadi yang umum dengan masalah dalam perguruan tinggi
8
Tabel 4.1
Contoh Data daripada mahasiswa 2005-2010
27
Tabel 4.2
Example of Initial Data
30
Tabel 4.3
Hasilterpisahmultidimensimenjadi 1-dimensi
31
Tabel 4.4
HasilpengelompokanberdasarkanDBSCAN
32
Tabel 4.5
Nilai yang dihasilkan olehSubspaceCluster
33
Table 4.6
Result of Group of Subspace Cluster
33
Table 4.7
Properti dari dataset
34
Universita Sumatera Utara
Universita Sumatera Utara
Universita Sumatera Utara