JURNAL
PENGELOMPOKAN SKRIPSI MENGGUNAKAN SELF ORGANIZING M APS CLUSTERING (STUDI KASUS : PRODI TEKNIK INFORMATIKA UNIVERSITAS NUSANTARA PGRI KEDIRI) CLASSIFICATION OF THESIS USING SELF ORGANIZING M APS CLUSTERING (CASE STUDY: INFORMATICS ENGINEERING STUDY PROGRAM OF UNIVERSITY NUSANTARA PGRI KEDIRI)
Oleh: IKA ZULAIKAH 12.1.03.02.0095
Dibimbing oleh : 1. M. Rizal Arief, S.T., M.Kom 2. Daniel Swanjaya, M.Kom PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS NUSANTARA PGRI KEDIRI 2017
Artikel Skripsi Universitas Nusantara PGRI Kediri
Ika Zulaikah | 12.1.03.02.0095 Fakultas Teknik – Teknik Informatika
simki.unpkediri.ac.id || 1||
Artikel Skripsi Universitas Nusantara PGRI Kediri
PENGELOMPOKAN SKRIPSI MENGGUNAKAN SELF ORGANIZING MAPS CLUSTERING (STUDI KASUS : PRODI TEKNIK INFORMATIKA UNIVERSITAS NUSANTARA PGRI KEDIRI) Ika Zulaikah 12.1.03.02.0095 Fakultas Teknik – Program Studi Teknik Informatika Email :
[email protected] M. Rizal Arief, S.T., M.Kom dan Daniel Swanjaya, M.Kom. UNIVERSITAS NUSANTARA PGRI KEDIRI
ABSTRAK Ika Zulaikah: Pengelompokan Skripsi Menggunakan Self Organizing Maps Clustering (Studi Kasus : Prodi Teknik Informatika Universitas Nusantara PGRI Kediri, Skripsi, TI, FT UN PGRI Kediri, 2017. Text mining berbasis pengelompokan skripsi menggunakan metode clustering Self Organizing Maps (SOM), dimana metode ini digunakan untuk meng-cluster skripsi pada Prodi Teknik Informatika Universitas Nusantara PGRI Kediri. Pada Prodi Teknik Informatika Universitas Nusantara PGRI Kediri data skripsi mahasiswa masih belum terinventaris dengan baik. Sehingga sering terjadi kesulitan dalam pencarian dan pengecekkan topik Skripsi. Bagaimana mengimplementasikan metode Self Organizing Maps (SOM) pada aplikasi pengelompokan skripsi? Pada sistem ini menggunakan abstrak sebagai input-an. Data-data abstrak tersebut telah tersimpan dalam database MySQL. Selanjutnya setiap kata dalam abstrak akan dipecah dengan menggunakan Tokenizing dan kata-kata yang telah dipecah akan distemingkan dan dikembalikan ke bentuk kata dasar. Proses selanjutnya yaitu pembobotan menggunakan metode TF-IDF. Dari proses TF-IDF tersebut akan menghasilkan bobot awal. Bobot awal dari proses TF-IDF selanjutnya akan dijadikan input-an untuk proses pembentukan jaringan SOM (clustering). Hasil dari proses tersebut berupa pelabelan pada masing-masing dokumen dan juga akan didapatkan bobot akhir. Metode Self Organizing Maps bisa digunakan untuk mengelompokan skripsi dalam beberapa cluster dan hasil yang diperoleh dapat langsung ditampilkan.
KATA KUNCI : Metode Self-Organizing Maps (SOM), Clustering, Jaringan Syaraf Tiruan (JST), Kohonen.
I.
LATAR BELAKANG Mahasiswa Skripsi Strata nantinya
untuk 1
(S1). akan
menyelesaikan
mendapatkan Skripsi dijadikan
gelar tersebut
seiring dengan kelulusan Mahasiswa pada setiap tahunnya mengakibatkaan pertambahan
banyaknya
Skripsi.
bahan
Tetapi Skripsi yang disimpan tersebut
pustaka penelitian dan sebagai koleksi
hanya diinventarisir di perpustakaan
untuk sebuah Program Studi (Prodi).
saja,
Dalam sebuah Program Studi (Prodi)
pencarian Skripsi berdasarkan
Ika Zulaikah | 12.1.03.02.0095 Fakultas Teknik – Teknik Informatika
dan
hanya
disediakan
fitur judul
simki.unpkediri.ac.id || 2||
Artikel Skripsi Universitas Nusantara PGRI Kediri
saja,
belum termasuk
konten dari
Skripsi tersebut.
isi.
Clustering
Prodi
Teknik
mengidentifikasi objek atau individu
Universitas
Nusantara
yang serupa dengan memperhatikan
PGRI Kediri data skripsi mahasiswa masih
kemiripan
adalah teknik yang digunakan untuk
Pada Informatika
memiliki
belum
terinventaris
beberapa kriteria.
dengan
Pada
penelitian
sebelumnya
baik. Sehingga sering terjadi kesulitan
pengelompokan
dalam pencarian
dan pengecekkan
sering
topik
Untuk
mengatasi
dilakukan oleh Ahmad Yusuf dan
Penulis
Tirta Priambadha pada tahun 2013
untuk
yang diberi judul “Support Vector
Teknik
Machines yang Didukung K-Means
Skripsi.
masalah
tersebut
mengajukan mambantu
dan
Penelitian Program
Informatika PGRI
maka
Studi
Universitas
Kediri untuk mengelompokan
Nusantara
dokumen
dilakukan.
Clustering
sudah
Seperti
Dalam
yang
Klasifikasi
menginventaris
Dokumen”. Pada penelitian tersebut
Skripsi
digunakan
yang
ada.
pengelompokan dokumen
dengan K-Means Clustering sebelum Aplikasi
merupakan
text
aplikasi
mengolah
data
Penggunaan
mining
yang
text
klasifikasi
mampu
dapat
meningkatkan akurasi sebesar 0,5 %
tulisan.
dan recall sebesar 0,4% pada data
mining
artikel
berupa
aplikasi
melakukan
yang
digunakan.
Klasifikasi
dapat menghemat waktu dan biaya,
akan mencapai akurasi terbaik pada
mengingat
jumlah
parameter jumlah kelompok tertentu.
dokumen yang ada. Aplikasi ini dapat
Hal ini dipengaruhi dengan variasi
mengelompokkan
data
banyaknya
dan
membagi
artikel yang digunakan.
Jika
dokumen ke dalam suatu kategori
menggunakan uji coba dengan data
yang
berbeda
Setiap
telah
ditentukan
kategori
sebelumnya.
dokumen
memiliki
sisi kemiripan yang nantinya dapat
dapat
untuk
membantu
dokumen
dengan
secara
otomatis
kemungkinan
parameter jumlah kelompok dengan akurasi terbaik berbeda pula.
divisualisasikan dengan cluster. Clustering
besar
Pada penelitian ini digunakan
digunakan
algoritma
Self
Organizing
Maps
menganalisis
(SOM). Algoritma Self Organizing
mengelompokkan
Maps (SOM) atau yang sering disebut
dokumen
dengan
Ika Zulaikah | 12.1.03.02.0095 Fakultas Teknik – Teknik Informatika
yang
Jaringan
Syaraf
Tiruan
simki.unpkediri.ac.id || 3||
Artikel Skripsi Universitas Nusantara PGRI Kediri
Kohonen,
yang merupakan sebuah
II.
METODE
metode yang dikenalkan oleh Teuvo
Self Organizing Map (SOM)
Kohonen pada tahun 1981. Jaringan
atau
Kohonen/SOM
digunakan
preserving
mengelompokkan
(clustering)
berdasarkan
untuk
sering
disebut map
topology-
pertama
kali
data
diperkenalkan oleh Profesor Teuvo
karakteristik/fitur-fitur
Kohonen pada tahun 1996. SOM
data.
merupakan salah satu teknik dalam Clustering
dengan
Neural Network yang bertujuan untuk
menggunakan algoritma SOM sudah
melakukan
sering digunakan sebelumnya. Salah
cara mengurangi dimensi data melalui
satunya
penggunaan
adalah
penelitian
yang
visualisasi
data
dengan
self-organizing
dilakukan oleh Ambarwati dan Edi
network
Winarko pada tahun 2014 yang diberi
mengerti high-dimensional data yang
judul
dipetakan
“Pengelompokan
Indonesia
Berdasarkan
Berita Histogram
Kata Menggunakan Self Organizing Pada
Maps”.
penelitian
tersebut
sehingga
neural
dalam
dimensional, (Kohonen,
manusia
dapat
bentuk
data.
low-
Kohonen
1989) menyatakan bahwa
“Metode
pembelajaran
didapatkan hasil bahwa pada tahun
digunakan
2007 sampai dengan tahun 2009 hasil
bimbingan dari suatu data input-target
pada
atau
clustering
memiliki
kecenderungan yang berbeda. Berdasarkan dilakukan mengajukan “Pengelompokan Menggunakan
Self
yang penulis
judul
unsupersived
adalah
tanpa
learning
yang
mengasumsikan sebuah topologi yang
penelitian
sebelumnya,
SOM
yang
terstruktur
menjadikan
unit
unit
kelas/cluster”.
Penelitian
Han dan Kamber (Han dan
Skripsi
Kamber, 2001) mengatakan bahwa
Organizing
“SOM
merupakan
metode
Maps Clustering (Studi Kasus :
berdasarkan model dari pendekatan
Prodi
jaringan
syaraf
jaringan
Self
Universitas
Teknik
Informatika
Nusantara
PGRI
tiruan”. Organizing
Dalam Maps
Kediri)” untuk membantu inventaris
(SOM), neuron target tidak diletakkan
dokumen Skripsi yang ada pada Prodi
dalam sebuah baris seperti layaknya
Teknik
model jaringan syaraf tiruan (JST)
Informatika
Universitas
Nusantara PGRI Kediri. Ika Zulaikah | 12.1.03.02.0095 Fakultas Teknik – Teknik Informatika
yang lain. Neuron target diletakkan simki.unpkediri.ac.id || 4||
Artikel Skripsi Universitas Nusantara PGRI Kediri
dalam
dua
bentuk/topologinya Topologi
yang
dimensi
uang
Step 6
: update learning rate
dapat
diatur.
Step 7
: update jarak
akan
Step 8
: uji kondisi stop
berbeda
menghasilkan neuron sekitar neuron pemenang bobot
yang
yang
berbeda
dihasilkan
(
(S
juga
akan
III.
)
)…(2.3)
HASIL DAN KESIMPULAN
A. Hasil
(SOM), perubahan bobot tidak hanya pada
(
sehingga
berbeda. Pada Self Organizing Maps
dilakukan
)
bobot garis yang
terhubung ke neuron pemenang saja,
Dari
penjelasan
sebelumnya,
berikut ini merupakan gambaran dari alur sistem yang telah dibuat :
tetapi juga pada bobot garis ke start
neuron-neuron di sekitarnya. Neuron di
sekitar
neuron
pemenang
input data Skripsi
ditentukan berdasarkan jaraknya dari neuron pemenang. Berikut
stemming
ini
adalah
TF IDF
vektor fitur
tahapan output bobot awal SOM
dalam algoritma pembelajaran SOM : Step 0
: Inisialisasi bobot (Wij) max epoch
Tentukan parameter jarak (R)
pembentukan jaringan SOM
Tentukan learning rate ( ) Step 1
: Jika kondisi stop salah,
output label per dokumen dan bobot akhir SOM
lakukan step 2 – 8 Step 2
: untuk semua input vector x
end
lakukan step 3 – 5 Step 3 ()
Step 4
Gambar 3.1. Flowchart Sistem
: untuk setiap j ∑(
) ........................(2.1)
: dapatkan j sehingga D(j) minimal
Step 5
: untuk semua j yang berada
(
)
data
kemudian
Skripsi terlebih
data
tersebut
dahulu,
masuk
ke
proses stemming. Stemming dilakukan
semua i )
menunjukkan bahwa user melakukan input
dalam jarak dan untuk (
Dalam flowchart Gambar 3.1
dengan menggunakan Algoritma Tala. (
)
Ika Zulaikah | 12.1.03.02.0095 Fakultas Teknik – Teknik Informatika
(2.2) simki.unpkediri.ac.id || 5||
Artikel Skripsi Universitas Nusantara PGRI Kediri
Proses
selanjutnya
yaitu
Tabel 3.2. Tabel feature vektor
pembobotan menggunakan metode TFIDF. Dari proses TF-IDF tersebut akan
Vektor term
menghasilkan bobot awal. Bobot awal
Vektor Judul Dokumen D1
D2
D3
t1
1
1
0
dari proses TF-IDF selanjutnya akan
t2
0
1
0
dijadikan
t3
1
1
1
t4
0
0
1
t5
1
1
0
input-an
pembentukan
untuk
jaringan
proses SOM
(clustering). Hasil dari proses tersebut berupa pelabelan
Dari data Feature Vektor maka
pada masing-masing
dapat dibuat feature Matrik
dokumen dan juga akan didapatkan
(FM)
sebagai berikut :
bobot akhir. Dari gambaran
flowchart
[
di
]
atas, berikut ini simulasi perhitungan [
dari aplikasi yang telah dibuat : Misalkan
terdapat
Feature
]
Training
Vektor yang diperoleh dari Vektor
menggunakan
Dokumen Skripsi dan Vektor term
random
sebagai berikut :
pelatihan :
Feature bobot
antara
0-1
Matrik
secara untuk
nilai proses
Tabel 3.1. Tabel vektor judul dokumen Skripsi dan vektor term: Vektor Judul Dokumen D1 D2 D3 D4 D5
Judul Dokumen Skripsi Dokumen 1 Dokumen 2 Dokumen 3 Dokumen 4 Dst
[
]
[
]
Set Parameter Learning rate ( ) secara manual (random antara 0 – 1) yaitu 0,6; dengan tiap kenaikan
Vektor Terms t1 t2 t3 t4 t5
Terms Term1 Term2 Term3 Term4 dst
epoch akan diset 0,5 x ( ): Cari
terdekat
neuron
dengan Euclidean Distance : ( ∑
Ika Zulaikah | 12.1.03.02.0095 Fakultas Teknik – Teknik Informatika
jarak
) (
) simki.unpkediri.ac.id || 6||
Artikel Skripsi Universitas Nusantara PGRI Kediri
Contoh
Maka bobot / weight minimum pada d2 5, update dengan rumus
Training data ke 1 Iterasi (epoch) 1 :
(
d 2 1 = (W 11 - X11 )2 + (W 21 - X12 )2 + (W 31 - X13 )2 + 2
)
2
(W 41 - X14 ) + (W 51 - X15 )
=( )
) (
( )
Dan )
(
(
diperoleh
(
)
hasil
sebagai
W15 (baru) = 0,86697 W25 (baru) = 0,10175 W45 (baru) = 0,18604
d 2 2 = (W 12 - X11 )2 + (W 22 - X12 )2 + (W 32 - X13 )2 +
W35 (baru) = 0,87686
(W 42 - X14 )2 + (W 52 - X15 )2
)
)
berikut :
)
= 1,31255
=(
(
) (
( )
) (
(
W55 (baru) = 0,64709
)
Jadi, bobot baru iterasi (epoch)
= 1,77652
ke 1 data ke 1 :
d 2 3 = (W 13 - X11 )2 + (W 23 - X12 )2 + (W 33 - X13 )2 + (W 43 - X14 )2 + (W 53 - X15 )2
=( )
) (
( )
[ )
(
)
= 1,29045
[
d 2 4 = (W 14 - X11 )2 + (W 24 - X12 )2 + (W 34 - X13 )2 +
)
) (
( )
) (
]
Catatan :
(W 44 - X14 )2 + (W 54 - X15 )2
=(
]
(
Bobot baru iterasi data ke 1 ini
(
digunakan untuk bobot awal data ke 2
)
Misalkan ini adalah hasil update
= 2,37813
bobot : d 2 5 = (W 15 - X11 )2 + (W 25 - X12 )2 + (W 35 - X13 )2 +
Bobot baru iterasi (epoch) ke1 data ke
(W 45 - X14 )2 + (W 55 - X15 )2
i1 :
=( )
) (
( )
) (
(
(
)
)
= 1,26481 (Pemenang) [
]
d 2 6 = (W 16 - X11 )2 + (W 26 - X12 )2 + (W 36 - X13 )2 + (W 46 - X14 )2 + (W 56 - X15 )2
=( )
) (
( )
) (
( )
= 2,82693 Ika Zulaikah | 12.1.03.02.0095 Fakultas Teknik – Teknik Informatika
simki.unpkediri.ac.id || 7||
Artikel Skripsi Universitas Nusantara PGRI Kediri
Bobot baru iterasi (epoch) ke 1 data ke
Jika
i2 : (
)
MSE
belum
menunjukkan
0,001,
lakukan
perhitungan
iterasi
(epoch)
ke
2.
untuk Langkah
perhitungan pada iterasi (epoch) ke 2 [
(
sama dengan langkah perhitungan pada
]
Bobot baru iterasi (epoch) ke 1 data ke
iterasi (epoch) ke 1. Setelah melakukan
i3 :
perhitungan jarak terdekat pada iterasi
)
(epoch) ke 2, dihasilkan bobot / weight minimum pada d2 5
[
muncul sebagai
pemenang. Tahap selanjutnya lakukan
]
update pada tersebut. Dan selanjutnya Catatan :
akan menghasilkan bobot baru iterasi
Bobot epoch 1 terakhir ini digunakan
(epoch) ke 2 data ke 1. Setelah beberapa iterasi (epoch)
untuk bobot awal epoch 2
dengan MSE 0,001,
Sebelum pindah ke epoch 2 lakukan
(
pengecekan
bobot
maka didapat
bobot akhir baru (disimpan) yang akan
sebagai
berikut :
digunakan
untuk
pengenalan
Bobot awal epoch 1 :
selanjutnya (Searching User).
data
)
Berikut ini adalah hasil dari bobot [
]
akhir : (
)
Bobot awal epoch 2 : (
)
[
[
]
]
Dari data sebelumnya diketahui bahwa data yang ada sebagai berikut :
MSE =
√(
)
√
MSE = √
i1 = (1, 0, 1, 0, 1) i2 = (1, 1, 1, 0, 1) i3 = (0, 0, 1, 1, 0)
MSE = 0,90027
dari ke 3 data tersebut dicari jarak
Keterangan :
terdekatnya dengan Euclidean Distance
Epoch akan berhenti jika nilai MSE = 0,001
adalah sebagai berikut :
(set manual program) Ika Zulaikah | 12.1.03.02.0095 Fakultas Teknik – Teknik Informatika
simki.unpkediri.ac.id || 8||
Artikel Skripsi Universitas Nusantara PGRI Kediri (sample i1 )
(sample i2 )
(sample i3 )
d2 1 = 0,99972
d2 1 = 0,00000 (win)d2 1 = 3,99752
d2 2 = 2,99756
d2 2 = 3,99682
2
d2 2 = 0,00000 (win)
2
d 3 = 1,29045
d 3 = 1,51561
d2 3 = 0,84655
d2 4 = 2,37813
d2 4 = 1,75555
d2 4 = 1,68555
2
2
d 5 = 0,00000 (win)d 5 = 0,99966
d2 5 = 2,99780
d2 6 = 2,82693
d2 6 = 1,17135
d2 6 = 2,08051
Maka Euclidean
dari Distance
hasil
perhitungan
di atas dapat
disimpulkan data telah tercluster : i1 masuk kelompok cluster 5, i2 masuk kelompok cluster 1, dan i3 masuk kelompok cluster 2.
B. Kesimpulan Melalui pembahasan yang telah diuraikan pada bab sebelumnya, maka dapat ditarik kesimpulan yaitu: Metode Self Organizing Maps bisa
Menggunakan Self-Organizing Map, 8 (1). (Online), tersedia: http://genome.tugraz.at/MedicalInfo rmatics2/SOM.pdf, diunduh 5 Januari 2016. Darmono & Hasan, Ani. M. 2002. Menyelesaikan Skripsi Dalam Satu Semester. Jakarta: PT Gramedia Widiasarana Indonesia. Han, J., M. Kamber, A. Tung. 2001. Spatial Clustering Methods In Data Mining. Geographic Data Mining and Knowledge Discovery. H. Miller and J. Han. Londor, Taylor & Fancis:188-217 Irwansyah, Edy & Faisal, Muhammad. 2015. Advanced Clustering Teori dan Aplikasi. Yogyakarta: Deepublish. Kohonen, T. 1989. Self-organization and Associztive Memory. Third Edition. Berlin: Springer-Verlag.
digunakan dalam aplikasi text
mining untuk mengelompokkan skripsi
Kohonen, Teuvo. 1990. The Organizing Map. IEEE.
Self
dalam beberapa cluster dan hasil yang diperoleh dapat langsung ditampilkan.
IV.
DAFTAR PUSTAKA
Adelheid, Andrea & Nst, Khairil. 2012. Buku Pintar Menguasai PHP MySQL. Jakarta: Mediakita Al, Henderi Et. 2008. Pengertian Use Case Diagram Deskripsi (Online), tersedia: http://www.jelajahiinternet.com/201 4/10/pengertian-use-case-diagramdeskripsi.html, 21 Januari 2016. Ambarwati & Winarko, Edi. 2013. Pengelompokan Berita Indonesia Berdasarkan Histogram Kata Ika Zulaikah | 12.1.03.02.0095 Fakultas Teknik – Teknik Informatika
Nofriadi. 2015. Java Fundamental dengan Netbeans 8.0.2, (Online). Yoyakarta : Deepublish. Rahayu, Minto. 2009. Bahasa Indonesia Di Perguruan Tinggi. Jakarta : PT Gramedia Widiasarana Indonesia. Sugiyono. 2008. Metode Penelitian Pendidikan. Bandung: Alfabeta. Supardi, Yuniar. 2007. Pemrograman Database dengan Java dan MySQL. Jakarta: PT Elex Media Komputindo. Supriyatno. 2010. Pemrograman Database menggunakan Java dan MySQL untuk Pemula. Jakarta: Mediakita. simki.unpkediri.ac.id || 9||
Artikel Skripsi Universitas Nusantara PGRI Kediri
Tala F. Z. 2004. A Study of Stemming Effects on Information Retrieval in Bahasa Indonesia. Institute for Logic, Language and Computation Universiteit van Amsterdam The Netherlands. Tan, P. et al. 2006. Intruduction to Data Mining. Boston: Pearson Education. Utomo, Mardi Siswo. 2013. Implementasi Stemmer Tala pada Aplikasi Berbasis Web, 18 (1). (Online), tersedia: http://www.unisbank.ac.id/ojs/index .php/fti1/article/view/1673/607, diunduh 25 Januari 2016. Wahyuningtyas, Ferida Kristin. 2014. Rekomendasi Resep Masakan
Ika Zulaikah | 12.1.03.02.0095 Fakultas Teknik – Teknik Informatika
Menggunakan Metode Fuzzy dan Self Organizing Map (SOM). Skripsi. Kediri : Universitas Nusantara PGRI. Westra, P.1991. Pengertian dan Definisi Sekripsi (Online), tersedia: http://www.kumpulandefinisi.com/2 015/07/pengertian-dan-definisisekripsi_97.html, 13 Januari 2016. Yusuf, Ahmad & Priambadha, Tirta. 2013, Support Vector Machines yang Didukung K-Means Clustering Dalam Klasifikasi Dokumen, 11 (1). (Online), tersedia: http://juti.if.its.ac.id/index.php/juti/a rticle/view/15/14, diunduh 12 Januari 2016.
simki.unpkediri.ac.id || 10||