ANALISIS PERBANDINGAN ALGORITMA SUPPORT VECTOR CLUSTERING (SVC) DAN K-MEDOIDS PADA KLASTER DOKUMEN TESIS
SUHADA 117038037
PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2013
Universitas Sumatera Utara
ANALISIS PERBANDINGAN ALGORITMA SUPPORT VECTOR CLUSTERING (SVC) DAN K-MEDOIDS PADA KLASTER DOKUMEN TESIS Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika
SUHADA 117038037
PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2013
Universitas Sumatera Utara
PERSETUJUAN
Judul Tesis
: Analisis Perbandingan Algoritma Support Vector Clustering (SVC) Dan K-Medoids Pada Klaster Dokumen
Kategori
: Tesis
Nama Mahasiswa
: Suhada
Nomor Induk Mahasiswa
: 117038037
Program Studi
: Magister (S2) Teknik Informatika
Fakultas
: Ilmu Komputer Dan Teknologi Informasi Universitas Sumatera Utara
Komisi Pembimbing
:
Pembimbing 2
Pembimbing 1
Dr. Marwan Ramli, M.Si
Prof. Dr. Muhammad Zarlis
Diketahui/disetujui oleh Program Studi Magister (S2) Teknik Informatika Ketua,
Prof. Dr. Muhammad Zarlis NIP. 195707011986011003
Universitas Sumatera Utara
PERNYATAAN ORISINALITAS
ANALISIS PERBANDINGAN ALGORITMA SUPPORT VECTOR CLUSTERING (SVC) DAN K - MEDOIDS PADA KLASTER DOKUMEN
TESIS
Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan masing – masing telah disebutkan sumbernya.
Medan, 6 Juni 2013
Suhada 117038037
Universitas Sumatera Utara
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Sebagai Sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini:
Nama NIM Program Studi Jenis Karya Ilmiah
: : : :
Suhada 117038037 Magister (S2) Teknik Informatika Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty free Right) atas tesis saya yang berjudul: ANALISIS PERBANDINGAN ALGORITMA SUPPORT VECTOR CLUSTERING (SVC) DAN K-MEDOIDS PADA KLASTER DOKUMEN Beserta perangkat yang ada. Dengan Hak Bebas Royalti Non-Eksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan atau sebagai pemilik hak cipta. Demikian pernyataan ini dibuat dengan sebenarnya. Medan, 6 Juni 2013
Suhada 117038037
Universitas Sumatera Utara
Telah diuji pada Tanggal : 20 Juni 2013
PANITIA PENGUJI TESIS Ketua
: Prof. Dr. Muhammad Zarlis
Anggota
: 1. Prof. Dr. Herman Mawengkang 2. Prof. Dr. Tulus 3. Dr. Marwan Ramli, M.Si 4. Dr. Zakarias Situmorang
Universitas Sumatera Utara
RIWAYAT HIDUP
DATA PRIBADI Nama Lengkap
:
Drs. Suhada
Tempat dan Tanggal Lahir
:
Pematangsiantar, 13 Mei 1958
Alamat Rumah
:
Jl. Batu Kapur No. 19 Pematangsiantar
E_Mail
:
[email protected]
Instansi Tempat Bekerja
:
AMIK Tunas Bangsa Pematangsiantar
Alamat Kantor
:
Jl. Jend. Sudirman No. 2A Pematangsiantar
DATA PENDIDIKAN SD
:
SD Negeri No.8 Pematangsiantar
TAMAT : 1971
SMP
:
SMP Negeri 2 Pematangsiantar
TAMAT : 1974
SMA
:
SMA Negeri 3 Pematangsiantar
TAMAT : 1977
Strata-1
:
FMIPA Fisika USU Medan
TAMAT : 1987
Strata-2
:
Teknik Informasi USU
TAMAT : 2013
Universitas Sumatera Utara
KATA PENGANTAR
Assalamu’alaikum Wr. Wb.
Pertama-tama penulis panjatkan syukur Alhamdulillah kepada Allah SWT, berkat rahmat dan kemurahanNya penulis dapat menyelesaikan tesis ini dengan judul Analisis Perbandingan Algoritma Support Vector Clustering (SVC) Dan K-Medoids Pada Klaster Dokumen.
Laporan tesis ini disusun dan diajukan untuk memenuhi persyaratan dalam memperoleh gelar magister pada Program Pascasarjana FasilKom TI Universitas Sumatera Utara.
Dalam penyelesaian tesis beserta penyusunan laporannya dapat berjalan dengan lancar, tidak lepas dari dukungan berbagai pihak. Oleh karena itu, penulis mengucapkan banyak terima kasih kepada: Allah SWT yang senantiasa memberikan kemudahan dan kekuatan kepada penulis dalam memahami dan mengamalkan ilmu-ilmu yang didapatkan selama ini. Bapak Prof. Dr. dr. Syahril Pasaribu, DTM&H, M.Sc (CTM), Sp. A(K) selaku Rektor Universitas Sumatera Utara, atas kesempatan yang diberikan kepada penulis untuk mengikuti dan menyelesaikan pendidikan Program Magister. Bapak Prof. Dr. Muhammad Zarlis, selaku Dekan FasilKom TI Universitas Sumatera Utara, atas kesempatan yang diberikan kepada penulis untuk mengikuti dan menyelesaikan pendidikan Program Magister pada Program Pascasarjana FasilKom TI Universitas Sumatera Utara.. Bapak Prof. Dr. Muhammad Zarlis selaku Ketua Program Studi Magister Teknik Informatika dan selaku dosen pembimbing utama yang dengan penuh perhatian telah memberikan saran, kritik, dorongan, bimbingan dan motivasi kepada penulis.
Universitas Sumatera Utara
Bapak Muhammad Andri Budiman, S.T, M. Comp. Sc, M.EM selaku Sekretaris Program Studi Magister Teknik Informatika. Bapak Dr. Marwan Ramli, M.Si selaku pembimbing anggota yang dengan penuh kesabaran menuntun dan membimbing penulis hingga selesainya penelitian ini. Seluruh dosen serta civitas akademika pada Program Studi Magister Teknik Informatika Program Pascasarjana FasilKom TI Universitas Sumatera Utara, yang telah memberikan bekal ilmu dan pengetahuan selama penulis mengikuti kuliah di Universitas Sumatera Utara. Ketua Yayasan Muhammad Nasir AMIK Tunas Bangsa Pematangsiantar H. Mauliyah Ahmad Ridwan Syah yang telah memberikan izin, bantuan moril dan materil dan kesempatan kepada penulis untuk mengikuti pendidikan lanjutan pada program Pascasarjana FasilKom TI Universitas Sumatera Utara. Orangtua tercinta, almarhum ayahanda dan almarhum ibunda serta seluruh keluarga yang senantiasa mendoakan dan memberikan dorongan kepada penulis. Istri dan anak tercinta Nikma Siregar, Fanny Andhina dan Riyan Muhammad yang selalu mendoakan, memberikan semangat dengan kasih, sabar dan bantuan selama penulis mengikuti pendidikan. Budi baik ini tidak dapat dibalas, hanya diserahkan kepada Allah SWT, Tuhan Yang Maha Esa. Sekali lagi terimakasih. Rekan mahasiswa se-angkatan penulis program studi magister (S2) Teknik Informatika Komputer FasilKom TI Universitas Sumatera Utara dan rekan sejawat di AMIK Tunas Bangsa Pematangsiantar, yang telah banyak membantu penulis selama mengikuti perkuliahan. Direktur AMIK Tunas Bangsa, Bapak Rahmat Widia Sembiring, M.Sc.IT. yang telah banyak membantu penulis dalam menyelesaikan tesis ini. Bapak Prof. Dr. Opim Salim Sitompul yang telah banyak memberikan dorongan kepada penulis untuk menyelesaikan tesis ini. Semua pihak yang tidak dapat disebutkan satu-persatu, yang telah berperan serta dalam penelitian tesis ini dan dalam pembuatan laporan tesis ini.
Universitas Sumatera Utara
Penulis menyadari bahwa penulisan laporan tesis ini masih jauh dari kesempurnaan baik dari segi materi yang dibahas maupun dari penulisannya. Untuk itu saran dan kritik yang bersifat membangun sangat penulis harapkan. Akhir kata penulis berharap semoga tesis beserta laporannya ini membawa manfaat dan faedah bagi pembaca dan pihak-pihak yang berkepentingan, serta buat penulis sendiri sebagai dharma bakti penulis kepada almamater. Wassalamualaikum.Wr.Wb.
Medan, 6 Juni 2013 Penulis
SUHADA
Universitas Sumatera Utara
ABSTRAK
Data dengan jumlah yang begitu besar berpotensi menghasilkan kesalahan dalam penyajian informasi. Pengolahan data dokumen juga menjadi isu penting pada saat ini. Seiring dengan meningkatkan jumlah data yang dikumpulkan dan disimpan dalam suatu database meningkat secara drastis. Data ini dapat berasal dari berbagai macam sumber seperti aplikasi financial, Enterprise Resource Management (ERM), Customer Relationship Management (CRM), dan lain-lain. Data-data tersebut jika di olah dapat digunakan untuk menunjang proses pengambilan keputusan. Penelitian ini difokuskan kepada isu aplikasi metode data mining pada kasus pengelompokkan data (Clustering). Dengan terdapatnya jumlah data yang cukup besar
memungkinkan peranan metode data mining dalam hal proses
segmentasi melalui klastering yang dapat mengelompokkan data ke dalam beberapa kelompok (Klaster) yang diinginkan. Adapun metode data mining yang digunakan Support Vector Clustering (SVC) dan algoritma K-Medoids. Pengujian nya dilakukan dengan software Rapidminer. Hasilnya didapat untuk SVC berkisar 11:21 Menit dan K-Medoids berkisar 3:21 Menit.
Kata Kunci : Algoritma Clustering, Support Vector Clustering,Algoritma K-Medoids.
Universitas Sumatera Utara
ABSTRACT
Data with such a large number of potentially result in errors in the presentation of information. Data processing documents also become an important issue at this time. Along with the increasing amount of data collected and stored in a database increases drastically. This data can come from a variety of sources such as financial applications, Enterprise Resource Management (ERM), Customer Relationship Management (CRM), and others. These data if if can be used to support the decision-making process. This study focused on the issue of application of data mining methods in the case of data classification (clustering). With the presence of a considerable amount of data possible role of data mining methods in the process of segmentation via clustering that can classify the data into groups (clusters) are desired. The data mining method used Support Vector Clustering (SVC) and K-Medoids algorithm. Her test is done with the software RapidMiner. The result obtained for 11:21 Minutes SVC ranges and K-Medoids range 3:21 Minutes.
Keywords : Clustering Algorithm, Support Vector Clustering, K-Medoids algorithm.
Universitas Sumatera Utara
DAFTAR ISI Halaman KATA PENGANTAR
i
ABSTRAK
iv
ABSTRACT
v
DAFTAR ISI
vi
BAB I
BAB II
BAB III
BAB IV
PENDAHULUAN
1
1.1
Latar Belakang
1
1.2
Perumusan Masalah
2
1.3
Ruang Lingkup Penulisan
2
1.4
Batasan Masalah
3
1.5
Tujuan Penelitian
3
TINJAUAN PUSTAKA
4
2.1
Penambangan Data (Data Mining)
4
2.2
Klastering
7
2.3
Dokumen Klastering
8
2.4
Support Vektor Clustering (SVC)
12
2.5
Algoritma Support Vektor Clustering
14
2.6
Algoritma K-Medoids
15
2.7
Riset-Riset Terkait
16
2.8
Kontribuasi Riset
17
2.9
Analisa dan Interpretasi
17
METODE PENELITIAN
18
3.1.
Pendahuluan
18
3.2
Lokasi dan Waktu Penelitian
18
3.3
Rancangan Penelitian
20
3.4
Flowchart Metodologi Penelitian
21
3.5
Perancangan Proses Klastering
23
HASIL DAN PEMBAHASAN
24
4.1
24
Komunitas Rapidminer
Universitas Sumatera Utara
4.2
Sampel Data Yang Bersumber Dari Berbagai Bidang Pendidikan AMIK Tunas Bangsa
BAB V
Pematangsiantar
25
4.3
Proses Support Vector Clustering
25
4.4
Hasil Proses Support Vector Clustering
31
4.5
Proses K-Medoids
38
PENUTUP
53
5.1.
Kesimpulan
53
5.2.
Saran
53
DAFTAR PUSTAKA LAMPIRAN
Universitas Sumatera Utara