perpustakaan.uns.ac.id
digilib.uns.ac.id
CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF-ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS)
Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Sarjana Jurusan Informatika HALAMAN JUDUL
Disusun Oleh:
VERA SURYANINGSIH NIM. M0509074
JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET 2015
commit to user i
perpustakaan.uns.ac.id
digilib.uns.ac.id
commit to user ii
perpustakaan.uns.ac.id
digilib.uns.ac.id
commit to user iii
perpustakaan.uns.ac.id
digilib.uns.ac.id
MOTTO “Sesali masa lalu karena ada kekecewaan dan kesalahan-kesalahan, tetapi jadikan penyesalan itu sebagai senjata untuk masa depan agar tidak terjadi kesalahan lagi” “Contoh yang baik adalah nasehat terbaik (Fuller)”
commit to user iv
perpustakaan.uns.ac.id
digilib.uns.ac.id
PERSEMBAHAN Skripsi ini penulis persembahkan kepada: “Orang tua tercinta, Bapak Suranto dan Ibu Eni Purwaningsih” “Kakak dan kakak ipar, Mbak Eri dan Mas Didik” “Keponakan yang ganteng, Dik Naufal” “Mas Sonny” “Sahabat serta teman-teman yang telah mensuport dan berjasa banyak” “Jurusan Informatika FMIPA UNS”
commit to user v
perpustakaan.uns.ac.id
digilib.uns.ac.id
KATA PENGANTAR Puji syukur kepada Allah SWT atas segala limpahan rahmat dan karuniaNya, sehingga penulis dapat menyelesaikan penulisan Tugas Akhir. Sholawat dan salam senantiasa penulis haturkan kepada Rosululloh SAW sebagai pembimbing seluruh umat manusia. Tugas Akhir ini tidak akan selesai tanpa adanya bantuan dari banyak pihak, oleh karena itu penulis menyampaikan terima kasih kepada: 1.
Bapak Ir. Ari Handono Ramelan, M.Sc. (Hons), Ph.D,. selaku Dekan FMIPA UNS.
2.
Bapak Drs. Bambang Harjito, M.App.Sc., Ph.D., selaku Ketua Jurusan S1 Informatika FMIPA UNS.
3.
Ibu Sari Wdya Sihwi, S.Kom., M.T.I., selaku pembimbing I yang telah dengan sabar memberikan bimbingan, petunjuk dan masukan.
4.
Bapak Meiyanto Eko Sulistyo, S.T., M.Eng., selaku pembimbing II yang telah dengan sabar memberikan bimbingan, petunjuk dan masukan.
5.
Ibu Esti Suryani, S.Si., M.Kom. selaku Pembimbing Akademis yang telah memberikan pengarahan selama proses penyelesaian Tugas Akhir ini.
6.
Bapak Ristu Saptono, S.Si., M.T., selaku anggota dewan penguji yang telah memberikan kritik, saran, dan masukan yang membangun.
7.
Bapak Prof. Dr Samanhudi, SP, M.Si selaku Pembantu Dekan 1 fakultas Pertanian UNS yang telah memberi validasi serta saran terhadap hasil Tugas Akhir ini.
8.
Bapak-Ibu dosen Jurusan Informatika UNS yang telah memberikan ilmu pengetahuan dan pengalaman yang sangat berguna dalam penyusunan Tugas Akhir ini.
9.
Bapak Suranto, Ibu Eni Purwaningsih, Mbak Eri, Mas Didik, Naufal, Mas Sonny, serta seluruh keluarga yang selalu mendukung, mendoakan, dan memberi semangat.
10.
Teman-teman Jurusan Informatika UNS khususnya angkatan 2009 yang selalu bersedia untuk berbagi informasi, ilmu, dan pengalaman serta selalu
commit to user memberikan motivasi dan semangat. vi
perpustakaan.uns.ac.id
11.
digilib.uns.ac.id
Teman-teman kos Pondok Biru & Sri Tanjung yang selalu memberi dukungan, dan hiburan.
12.
Semua pihak yang tidak dapat penulis sebutkan satu persatu. Semoga Allah SWT membalas jerih payah dan pengorbanan yang telah
diberikan dengan balasan yang lebih baik. Penulis berharap semoga skripsi ini dapat bermanfaat bagi yang berkepentingan khususnya dan bagi pembaca umumnya.
Surakarta, 11 Mei 2015
Vera Suryaningsih
commit to user vii
perpustakaan.uns.ac.id
digilib.uns.ac.id
DOCUMENT CLUSTERING USING SELF-ORGANIZING MAP (SOM) ALGORITHM (CASE STUDY: THESIS DOCUMENTS IN THE FACULTY OF AGRICULTURE UNS)
VERA SURYANINGSIH Department of Informatics. Faculty of Mathematics and Natural Sciences. Sebelas Maret University
ABSTRACT
Faculty of Agriculture, Universitas Sebelas University has generated a lot of research, especially thesis documents. If the thesis document is processed, it is possible to be found a pattern that will give benefit for the faculty. Therefore, text mining of the thesis document needs to be done. This research performed clustering to thesis documents in the faculty of Agriculture UNS 2008 to 2013 by using the Self-Organizing Map algorithm. Before the clustering process, the abstracts were processed through the text preprocessing stage and TF-IDF weighting. This research used 81 as cluster number, 1000 as iteration number and 0,1 as learning rate. The results showed that there are several clusters which has a theme that possible can be collaborated with some or all of the department. There are also cluster which it‟s theme possible can‟t be collaborated with another department, because only certain department who has done research on the theme of the cluster. But it could be, other departments has not done research on this theme. Department of Agribusiness has a various themes in each year. While the Department of Agrotechnology, department of ITP, and Department of Animal Husbandry just took a few same theme each year.
Keyword : Text Mining, Text Preprocessing, TF-IDF, Clustering, Self-Organizing Map.
commit to user viii
perpustakaan.uns.ac.id
digilib.uns.ac.id
CLUSTERING DOKUMEN MENGGUNAKA ALGORITMA SELF-ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS)
VERA SURYANINGSIH Jurusan Informatika, Fakultas MIPA, Universitas Sebelas Maret
ABSTRAK Fakultas Pertanian Universitas Sebelas Maret telah menghasilkan banyak dokumen penelitian khususnya berupa skripsi. Jika kumpulan dokumen skripsi tersebut diolah, dimungkinkan akan ditemukan suatu pola yang bermanfaat bagi pihak fakultas. Oleh karena itu, perlu dilakukan text mining terhadap kumpulan dokumen skripsi tersebut. Penelitian ini akan melakukan clustering pada dokumen skripsi di fakultas Pertanian UNS tahun 2008 sampai 2013 dengan menggunakan algoritma SelfOrganizing Map. Sebelum dilakukan proses clustering, abstrak terlebih dahulu diolah melalui tahap text preprocessing dan pembobotan TF-IDF. Pada penelitian ini menggunakan inputan cluster sebanyak 81, iterasi sebanyak 1000 dan learning rate sebesar 0,1. Hasil penelitian menunjukkan bahwa ada beberapa cluster yang dimungkinkan tema pada cluster tersebut berpotensi untuk dikolaborasikan dengan beberapa maupun semua prodi. Ada juga cluster yang dimungkinkan tema pada cluster tersebut memang tidak bisa dilakukan kolaborasi, karena hanya prodi tertentu yang pernah melakukan penelitian pada tema cluster tersebut. Namun bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Jurusan Agribisnis memiliki penyebaran tren tema yang bervariasi ditiap tahunnya. Sedangkan pada prodi Agroteknologi, prodi ITP, serta prodi Peternakan tema yang banyak diambil ditiap tahunnya hanya di beberapa tema saja. Kata kunci : Text Mining, Text Preprocessing, TF-IDF, Clustering, Selfcommit to user Organizing Map ix
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR ISI HALAMAN JUDUL................................................................................................ i HALAMAN PERSETUJUAN ............................... Error! Bookmark not defined. HALAMAN PENGESAHAN ................................................................................. ii HALAMAN MOTTO ............................................................................................ iii HALAMAN PERSEMBAHAN ............................................................................. v KATA PENGANTAR ............................................................................................. vi ABSTRACK .......................................................................................................... viii ABSTRAK ............................................................................................................. ix DAFTAR ISI ........................................................................................................... x DAFTAR TABEL.................................................................................................. xii DAFTAR GAMBAR ........................................................................................... xiii DAFTAR LAMPIRAN ........................................................................................ xiv BAB I PENDAHULUAN ....................................................................................... 1 1.1. Latar Belakang ................................................................................... 1 1.2. Rumusan Masalah .............................................................................. 3 1.3. Batasan Masalah ................................................................................ 3 1.4. Tujuan Penelitian ............................................................................... 3 1.5. Manfaat Penelitian ............................................................................. 3 1.6. Sistematika Penulisan ........................................................................ 4 BAB II LANDASAN TEORI ................................................................................ 5 2.1. Dasar Teori ......................................................................................... 5 2.1.1. Text Mining .............................................................................. 5 2.1.2. Text Preprocessing ................................................................... 6 2.1.3. Algoritma Stemming Nazief & Afriani .................................. 7 2.1.4. Term Frequency (TF) dan Inverse Document Frequency (IDF)....................................................................................... 9 2.1.5. DF Feature Selection ............................................................... 9 2.1.6. Min Max Normalization ......................................................... 10 2.1.7. Clustering ................................................................................11 2.1.8. Self-Organizing Map (SOM) ..................................................11 2.2.
Penelitian Terkait ............................................................................. 15
2.3.
to user Kerangka Pemikirancommit ........................................................................ 17 x
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB III METODOLOGI PENELITIAN............................................................. 18 3.1. Studi Literatur..................................................................................... 18 3.2. Pengumpulan Data ........................................................................... 18 3.3. Penerapan Metode ............................................................................ 19 3.3.1 Tahap Text Preprocessing ....................................................... 19 3.3.2 Tahap Pembobotan TF-IDF .................................................... 20 3.3.3. Tahap Clustering .................................................................... 20 3.3. Tahap Analisis .................................................................................. 21 3.4. Tahap Validasi .................................................................................. 21 BAB IV HASIL DAN PEMBAHASAN.............................................................. 22 2.3. Deskripsi Data.................................................................................. 22 2.4. Tahap Text Preprocessing ................................................................ 22 2.5. Tahap Pembobotan TF-IDF ............................................................. 25 2.6. Normalisasi Data.............................................................................. 29 2.7. Proses Clustering ............................................................................. 30 2.8. Analisis Hasil Clustering ................................................................. 36 2.9. Validasi............................................................................................. 48 BAB V PENUTUP ................................................................................................ 49 5.1. KESIMPULAN ................................................................................ 49 5.2.
SARAN ........................................................................................... 49
DAFTAR PUSTAKA ............................................................................................ 50 LAMPIRAN 1 ....................................................................................................... 52
commit to user xi
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR TABEL Tabel 2.1 Penelitian Terkait.......................................................................... 15 Tabel 4.1 Contoh dokumen untuk perhitungan TF-IDF................................ 26 Tabel 4.2 Hasil dari perhitungan TF serta DF yang belum mengalami proses feature selection.................................................................. 27 Tabel 4.3 Hasil dari perhitungan TF serta DF yang sudah mengalami proses feature selection................................................................. 27 Tabel 4.4 Hasil perhitungan TF, DF, IDF, dan TF-IDF................................ 29 Tabel 4.5 Perbandingan TF-IDF yang belum ternormalisasi dan TF-IDF yang sudah dinormalisasi dengan Min Max Normalization......... 30 Tabel 4.6 Perkiraan tema pada setiap cluster C1 - C49................................. 37 Tabel 4.7 Distribusi Frekuensi Cluster per Prodi......................................
38
Tabel 4.8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agribisnis........ 40 Tabel 4.9 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi.....42 Tabel 4.10 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP................
44
Tabel 4.11 Distribusi Frekuensi Cluster Pertahun Pada Prodi Peternakan.... 46
commit to user xii
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR GAMBAR Gambar 2.1 Proses Case Folding.................................................................. 6 Gambar 2.2 Proses Tokenizing....................................................................... 6 Gambar 2.3 Proses Filtering.......................................................................... 7 Gambar 2.4 Proses Stemming........................................................................ 7 Gambar 2.5 Arsitektur SOM (Kristanto, 2004)............................................. 12 Gambar 3.1 Metodologi Penelitian................................................................ 18 Gambar 3.2 Proses Text Preprocessing ........................................................ 19 Gambar 4.1 Abstrak dokumen contoh yang belum dilakukan Text Preprocessing........................................................................... 22 Gambar 4.2 Hasil Case Folding terhadap Dokumen Contoh........................ 23 Gambar 4.3 Hasil Tokenizing terhadap Dokumen Contoh........................... 23 Gambar 4.4 Hasil Filtering terhadap Dokumen Contoh............................... 24 Gambar 4.5 Hasil Stemming terhadap Dokumen Contoh............................. 24 Gambar 4.6 Hasil Filtering - Stemming terhadap Dokumen Contoh............ 25 Gambar 4.7 Topologi SOM........................................................................... 30 Gambar 4.8 Salah Satu Dokumen Disajikan ke dalam Jaringan SOM....31 Gambar 4.9 Radius BMU.............................................................................. 31 Gambar 4.10 Topologi SOM untuk data contoh........................................... 32 Gambar 4.11 Contoh tampilan hasil per-cluster........................................... 36
commit to user xiii
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR LAMPIRAN LAMPIRAN 1 Hasil Clustering.................................................................... 52
commit to user xiv