Artikel Skripsi Universitas Nusantara PGRI Kediri
PENGKLASIFIKASIAN DATA SEKOLAH PENGGUNA INTERNET PENDIDIKAN MENGGUNAKAN TEKNIK CLUSTERING DENGAN ALGORITMA K-MEANS STUDI KASUS PT TELKOM SURABAYA
SKRIPSI Diajukan Untuk Memenuhi Sebagian Syarat Guna Memperoleh Gelar Sarjana Komputer (S.kom) Pada Program Studi Teknik Informatika
OLEH : VIVIN DWI RETNANINGSIH NPM: 12.1.03.02.0417
FAKULTAS TEKNIK UNIVERSITAS NUSANTARA PERSATUAN GURU REPUBLIK INDONESIA UN PGRI KEDIRI 2016
Vivin Dwi Retnaningsih | 12.1.03.02.0417 Teknik-Teknik Informatika
simki.unpkediri.ac.id || 1||
Artikel Skripsi Universitas Nusantara PGRI Kediri
Vivin Dwi Retnaningsih | 12.1.03.02.0417 Teknik-Teknik Informatika
simki.unpkediri.ac.id || 2||
Artikel Skripsi Universitas Nusantara PGRI Kediri
Vivin Dwi Retnaningsih | 12.1.03.02.0417 Teknik-Teknik Informatika
simki.unpkediri.ac.id || 3||
Artikel Skripsi Universitas Nusantara PGRI Kediri
PENGKLASIFIKASIAN DATA SEKOLAH PENGGUNA INTERNET PENDIDIKAN MENGGUNAKAN TEKNIK CLUSTERING DENGAN ALGORITMA K-MEANS STUDI KASUS PT. TELKOM SURABAYA Vivin Dwi Retnaningsih 12.1.03.02.0417 Teknik – Teknik Informatika
[email protected] Suratman, SH., M.Pd dan Ardi Sanjaya, M.Kom UNIVERSITAS NUSANTARA PGRI KEDIRI
ABSTRAK Vivin Dwi Retnaningsih : Pengklasifikasian Data Sekolah Pengguna Internet Pendidikan Menggunakan Teknik Clustering dengan Algoritma K-Means Studi Kasus PT. Telkom Surabaya, Skripsi, Teknik Informatika, Fakultas Teknik UN PGRI Kediri, 2016. Penelitian ini dilatar belakangi hasil pengamatan peneliti, bahwa banyaknya data yang dipunyai sebuah instansi bisa menyebabkan kesulitan dalam mengelola data tersebut untuk kepentingan instansi. Akibatnya banyak terjadi kesalahan dalam pengkasifikasian yang dilakukan. Permasalahan penelitian ini adalah bagaimana cara merancang sistem untuk pengolahan data sekolah dengan menggunakan metode clustering? Di dalam penelitian ini menggunakan pendekatan Penelitian Rekayasa Perangkat Lunak dengan subyek penelitian sekolah pengguna internet pendidikan di PT. Telkom Surabaya. Penelitian ini menggunakan algortima k-means dalam mengelompokkan data sekolah. Data sekolah dikelompokkan berdasarkan jumlah kluster yang ditentukan. Selanjutnya, setiap data/obyek ditempatkan berdasarkan kluster terdekat menggunakan konsep jarak euclidean distance. Proses tersebut terus dilakukan sampai pusat kluster tidak berubah lagi. Hasil penelitian ini adalah (1) Melalui algoritma K-Means ini terbukti dapat membantu mengelompokan data sekolah dalam jumlah besar berdasarkan kluster yang telah ditentukan secara random (acak). (2) Dengan menggunakan metode Clustering dengan algoritma K-Means terbukti dapat mengelola dan mengelompokkan data sekolah serta tagihan sekolah secara otomatis. Berdasarkan hasil penelitian ini, direkomendasikan : (1) Tujuan pokok penggunaan algoritma k-means ini adalah untuk mengelompokkan data sekolah. Oleh sebab itu karyawan PT. Telkom Surabaya sebagai pengguna aplikasi ini harus mengutamakan proses yang mendukung kelancaran penggunaan dan perawatan aplikasi ini. (2) Karyawan PT. Telkom Surabaya perlu mengembangkan lagi aplikasi yang telah dibuat oleh peneliti. (3) Sekolahsekolah di Surabaya terutama pengguna aplikasi inidiharapkan bisa lebih mengembangkan aplikasi ini dengan lebih baik dan lebih bermanfaat lagi. Kata kunci : Pengklasifikasian, Data Mining, Clustering, K-Means, Euclidean Distance.
Vivin Dwi Retnaningsih | 12.1.03.02.0417 Teknik-Teknik Informatika
simki.unpkediri.ac.id || 4||
Artikel Skripsi Universitas Nusantara PGRI Kediri
I.
seperti
LATAR BELAKANG
kecerdasan
buatan
(artificial
intelligent), machine learning, statistic dan Banyaknya data yang dipunyai sebuah
basis data. Beberapa teknik yang sering
instansi bisa menyebabkan kesulitan dalam
disebut-sebut dalam literatur DM antara lain
mengelola data tersebut untuk kepentingan
:clustering, classification, association rule
instansi. Kegiatan pengklasifikasian yang
mining,
dilakukan oleh manusia masih memiliki
algorithm.
keterbatasan, terutama pada kemampuan
neural
network,
dan
PT. Telkom Surabaya
genetic
adalah salah
manusia dalam menampung jumlah data
satu instansi milik BUMN yang terbesar di
yang ingin dikelola. Selain itu bisa juga
Jawa Timur. Dalam perkembangannya PT.
terjadi kesalahan dalam pengklasifikasian
Telkom Surabaya banyak mengeluarkan
yang dilakukan. Salah satu cara mengatasi
produk-produk yang bermanfaat terutama
masalah ini adalah dengan menggunakan
bagi warga Surabaya dan warga seluruh
Data Mining (DM) dengan teknik clustering.
Indonesia maupun manca negara. Salah satu
Penggunaan teknik DM clustering
produk yang saat ini digencarkan adalah
berbeda–teknik Data Mining (DM) yang
produk Indihome dan Internet Pendidikan.
lainnya, seperti association rule mining dan
PT. Telkom Surabaya bekerja sama
classification yang memerlukan tahapan
dengan pemerintah kota Surabaya untuk
training
mewajibkan seluruh sekolah di Surabaya
dan
evauasi.
Teknik
ini
menggunakan metode unsupervised learning
baik
yang berarti DM tidak perlu melakukan
menggunakan
training terlebih dahulu tapi bisa langsung
informasi tentang dunia pendidikan dapat
menggunakannya untuk pengelompokkan.
tersebar kepada para siswa dengan lebih
Teknik ini masih jarang digunakan dibanding
cepat dan akurat lagi, tanpa harus ada
dengan teknik-teknik DM yang lain.
gangguan jaringan.
Data Mining adalah
SD,
SMP,
maupun
Internet
SMA
untuk
Pendidikan
guna
serangkaian
Banyaknya data sekolah yang ada di
proses untuk menggali nilai tambah dari
Surabaya membuat PT. Telkom Surabaya
suatu kumpulan data berupa pengetahuan
sulit
yang selama ini tidak diketahui secara
mengklasifikannya, selain itu banyak data
manual. Patut diingat bahwa kata mining
sekolah yang tidak valid, sehingga membuat
sendiri berarti usaha untuk mendapatkan
PT. Telkom Surabaya harus lebih ekstra lagi
sedikit barang berharga dari sejumlah besar
dalam
material dasar. Karena itu DM sebenarnya
tersebut. Kegiatan klasifikasi yang dilakukan
memiliki akar yang panjang dari bidang ilmu
oleh manusia masih memiliki keterbatasan,
Vivin Dwi Retnaningsih| 12.1.03.02.0417 Fakultas Teknik– Prodi Teknik Informatika
untuk
memvalidkan
mengelola
data-data
dan
sekolah
simki.unpkediri.ac.id || 2||
Artikel Skripsi Universitas Nusantara PGRI Kediri
terutama pada kemampuan manusia dalam
masalah ini adalah dengan
menampung
ingin
Data Mining (DM) dengan teknik clustering.
diklasifikasikan. Selain itu bisa juga terjadi
Menurut Ferlyna K Wardhani, Erma
jumlah
data
yang
kesalahan dalam pengklasifikasian
yang
menggunakan
Suryani, dan Ahmad Mukhlason, dalam jurnalnya yang berjudul “PENERAPAN
dilakukan. Karena kurang validnya data sekolah
METODE
GA
-
KMEANS
UNTUK
yang diberikan oleh Pemkot Surabaya dapat
PENGELOMPOKAN PENGGUNA PADA
mempengaruhi
BAPERSIP PROVINSI JAWA TIMUR”,
strategi
promosi
yang
dilakukan oleh PT. Telkom Surabaya.
mampu membantu saya dalam
Menurut Lindawati, dalam jurnalnya
strategi
pemecahan
yang berjudul “DATA MINING DENGAN
pengelompokan
TEKNIK
sekolah
CLUSTERING
DALAM
PENGKLASIFIKASIAN
menyusun masalah
data
pengguna
paket bandwith
internet
pendidikan
DATA
pada PT Telkom Surabaya. Algoritma K-
MAHASISWA STUDI KASUS PREDIKSI
means mengelompokan data berdasarkan
LAMA
klaster-klaster
STUDI
UNIVERSITAS mampu
BINA
menjadi
menyusun klasifikasi
MAHASISWA
strategi
NUSANTARA”,
referensi
saya
pemecahan
dalam masalah
dan pengelolaan data yang
sebelumnya. Selain Kmeans
ditentukan
itu, algoritma GAmenghasilkan
pengelompokan dengan tingkat kerapatan di
dalam
dibandingkan
clustering efektif untuk mengklasifikasikan
sederhana.
prediksi lama studi mahasiswa dengan
Menurut Rima Dias Ramadhani, dalam
telah
mampu
dialami oleh PT. Telkom Surabaya. Teknik
menggunakan parameter-parameter tertentu.
yang
klaster
yang
lebih
baik
dengan algoritma K-means
Pengolahan data sekolah pengguna internet
pendidikan
di
kota
Surabaya
seharusnya dilakukan dengan
tepat dan
jurnalnya yang berjudul “DATA MINING
cepat,
kesalahan
MENGGUNAKAN
K-
pemasangan
UNTUK
pendidikan.
MEANS
ALGORITMA
CLUSTERING
agar
tidak kecepatan
akses
Penelitian
UNIVERSITAS DIAN NUSWANTORO”,
pengelompokan
mampu membantu saya dalam perancangan
internet yang dipesan oleh masing-masing
strategi promosi untuk produk Internet
sekolahan. Selain
Pendidikan yang dialami oleh PT. Telkom
dapat membantu strategi promosi internet
Surabaya. Salah satu cara
pendidikan oleh PT. Telkom Surabaya.
Vivin Dwi Retnaningsih| 12.1.03.02.0417 Fakultas Teknik– Prodi Teknik Informatika
sesuai
akan
internet
MENENTUKAN STRATEGI PROMOSI
mengatasi
ini
terjadi
melakukan
kecepatan
akses
itu penelitian ini juga
simki.unpkediri.ac.id || 3||
Artikel Skripsi Universitas Nusantara PGRI Kediri
Dalam
penelitian
menggunakan menyusun
metode
ini,
saya
clustering
digunakan adalah jarak Euclidean
dalam
sistem pengolahan data. Data
(L2-norm). 4. Menghitung kembali pusat cluster
akan secara otomatis diolah oleh sistem,
dengan
sehingga PT. Telkom dapat secara cepat
sekarang. Pusat cluster adalah rata-
mendapat
rata dari
informasi
dan
melakukan
pemasangan secara tepat.
dalam
keanggotaan
semua data atau obyek cluster
dikehendaki II.
cluster
tertentu.
bisa
juga
Jika
memakai
median dari cluster tersebut.
METODE Metode K-Means bisa menggunakan
5. Menghitung kembali pusat cluster
ukuran kemiripan untuk mengelompokkan
yang baru jika pusat tidak berubah
suatu obyek. Kemiripan ini diterjemahkan
lagi,
dalam
2007).
selesai atau kembali ke langkah yang
Semakin dekat jarak, maka semakin tinggi
ketiga sampai pusat klaster tidak
kemiripannya.
berubah lagi.
konsep
jarak
(Santoso,
Berikut langkah-langkah algoritma KMeans Clustering :
2. Inisialisasi nilai K pusat cluster atau nilai means atau centroid, yang paling
sering
digunakan
adalah
dengan cara random (acak). 3. Menempatkan setiap data/obyek ke cluster obyek
terdekat. Kedekatan dua ditentukan
berdasar
jarak
proses
pengklasteran
Hasil klaster dengan metode K-Means Clustering
1. Menentukan jumlah K cluster.
maka
pusat
sangat bergantung pada nilai
klaster
awal
yang
diberikan.
Pemberian nilai awal yang berbeda bisa menghasilkan hasil klaster yang berbeda. Ada beberapa cara member nilai awal misalnya dengan mengambil sampel awal dari data atau member nilai awal secara random (acak).
Demikian
Beberapa permasalahan yang sering
juga kedekatan suatu data ke cluster
muncul pada saat menggunakan metode K-
tertentu
Means untuk melakukan pengelompokkan
kedua obyek
tersebut.
ditentukan
jarak
antara
data dengan pusat cluster. Dalam tahap ini perlu dihitung jarak data dengan satu cluster
tiap
tertentu
akan menentukan suatu data masuk dalam cluster. Konsep jarak yang
data adalah : a. Ditemukannya
beberapa
model
klastering yang berbeda. b. Pemilihan jumlah klaster yang paling tepat. c. Kegagalan untuk converge.
Vivin Dwi Retnaningsih| 12.1.03.02.0417 Fakultas Teknik– Prodi Teknik Informatika
simki.unpkediri.ac.id || 4||
Artikel Skripsi Universitas Nusantara PGRI Kediri
d. Pendeteksian outlier.
berhenti dan kegagalan untuk
e. Bentuk masing-masing klaster.
akan terjadi. Untuk K-Means, walaupun ada,
f. Masalah overlapping.
kemungkinan
Keenam permasalahan diatas adalah beberapa hal yang perlu di perhatikan pada saat
menggunakan
mengelompokkan
K-Means
data.
dalam
Permasalahan
1
umumnya disebabkan oleh perbedaan proses
converge
permasalahan
ini untuk
terjadi sangatlah kecil, karena setiap data dilengkapi dengan untuk
membership
menjadi
anggota
function
klaster
yang
ditemukan. Permasalahan
keempat
merupakan
inisialisasi anggota masing-masing klaster.
permasalahan umum yang terjadi hampir
Proses initialisasi yang sering digunakan
disetiap metode yang melakukan pemodelan
adalah proses inisialisasi secara random.
terhadap data. Khusus untuk metode K-
Permasalahan 2 merupakan masalah laten dalam metode K-Means. Beberapa pendekatan
telah
digunakan
menentukan
jumlah
klaster yang paling
tepat untuk suatu dataset termasuk
diantaranya
dalam
yang dianalisa
Partition Entropy
(PE) dan GAP Statistics. Metode-metode tersebut tidak sama yang
digunakan
dengan
oleh
pendekatan
K-Means
dalam
mempartisi data items ke masing-masing klaster.
Means
hal
ini
permasalahan
yang
cukup
menentukan.
Beberapa hal
yang
perlu
diperhatikan
dalam melakukan dalam
pendeteksian outlier
pengelompokkan
data
data item merupakan
outlier dari suatu
klaster tertentu dan apakah data dalam jumlah kecil yang membentuk suatu klaster tersendiri dapat dianggap sebagai Proses ini memerlukan yang
outlier.
suatu pendekatan
berbeda dengan proses
untuk
pendeteksian outlier di dalam suatu dataset
converge, secara teori memungkinkan untuk
yang hanya terdiri dari satu populasi yang
terjadi dalam kedua metode K-Means yang
homogen.
dijelaskan
di
Kemungkinan
kegagalan
proses
menjadi
termasuk bagian menentukan apakah suatu
khusus
Permasalahan
memang
dalam ini
tulisan
ini.
akan semakin besar
terjadi
untuk
metode
karena
setiap
data
Hard K-Means,
Permasalahan menyangkut
kelima
bentuk
adalah
klaster
ditemukan.
Tidak
clustering
lainnya
dialokasikan secara tegas (hard) untuk
Modelling,
K-Means
menjadi bagian dari suatu klaster tertentu.
mengindahkan bentuk dari masing-masing
Kejadian
klaster
seperti
mengakibatkan
di
ini
pemodelan
dalam
dataset
tentu tidak
Vivin Dwi Retnaningsih| 12.1.03.02.0417 Fakultas Teknik– Prodi Teknik Informatika
akan
yang
seperti
yang
metode
termasuk umumnya
mendasari
model
data
Mixture tidak
yang
akan simki.unpkediri.ac.id || 5||
Artikel Skripsi Universitas Nusantara PGRI Kediri
terbentuk, walaupun
secara
natural
masing-masing klaster umumnya berbentuk bundar. Untuk mempunyai
dataset yang diperkirakan
bentuk
yang
tidak
biasa,
beberapa pendekatan perlu untuk diterapkan. Masalah permasalahan
over
lapping
terakhir
sebagai
sering
sekali
Gambar 5.11 Form Tambah Data Tagihan
diabaikan karena umumnya masalah ini sulit terdeteksi. Hal ini metode
Hard
Means, karena tidak
terjadi
K-Means dan secara
untuk
Fuzzy K-
teori metode
diperlengkapi
feature
ini
untuk
Setelah data selesai di inputkan, klik simpan. Kemudian
akan muncul gambar
5.12 seperti dibawah ini, masukkan nama
mendeteksi apakah didalam suatu klaster
sekolah yang baru diinputkan, klik hitung
ada
status
klaster
lain
yang
kemungkinan
tersembunyi. (Yunus Ariadi Saputra, 2014)
untuk
menghitung
status
berlangganannya.
III. HASIL DAN KESIMPULAN Didalam menu data terdapat submenu tambah
data,
olah
data,
dan
tagihan
pelanggan. Berikut adalah tampilan dari form tambah data dan form olah data : Gambar 5.12 Form Hitung Status K-Means Kemudian klik cari untuk mengetahui status
berlangganan dari sekolah tersebut,
seperti gambar dibawah ini :
Gambar 5.10 Form Tambah Data
Vivin Dwi Retnaningsih| 12.1.03.02.0417 Fakultas Teknik– Prodi Teknik Informatika
simki.unpkediri.ac.id || 6||
Artikel Skripsi Universitas Nusantara PGRI Kediri
Kadir, Abdul. 2013. Pengenalan Sistem Informasi. Yogyakarta : Andi Permana, Galih. 2013. Pengertian PHP dan Kelebihannya (online). Tersedia : http://infoterlengkap.blogspot.com/2013/03/penge rtian-php-dan-kelebihannya.html Diunduh pada 17 November 2015 Gambar 5. 13 Form Status Berlangganan KESIMPULAN 1. Melalui algortima K-Means ini terbukti dapat
membantu
mengelompokkan
data sekolah dalam jumlah besar berdasarkan
Portal koporet PT Telekomunikasi Indonesia, Tbk. 2015. http://www.telkom.co.id Diunduh pada 17 November 2015
kluster
yang
telah
Santosa, B. 2007. Data Mining Teknik Pemanfaatan Data Untuk Keperluan Bisnis. Yogyakarta : Graha Ilmu
ditentukan secara random (acak). 2. Dengan
menggunakan
metode
Clustering dengan algoritma K-Means terbukti
dapat
mengelola
Suprianto, Dodit. 2008. Buku Pintar Pemrograman PHP. Jakarta : Oase Media
dan
mengelompokkan data sekolah serta tagihan sekolah secara otomatis.
Yakub. 2002. Pengantar Sistem Informasi (Edisi 1). Yogyakarta : Graha Ilmu
IV. DAFTAR PUSTAKA
Ariadi, Yunus S. 2014. Analisis Data Mahasiswa Menggunakan Algoritma K- Means Clustering (Studi Kasus Prodi Teknik Informatika Fakultas Teknik UNP Kediri). Universitas Nusantara PGRI Kediri
Budiman, Irwan. 2012. Data Clustering Menggunakan Metodologi CRISPDM Untuk Pengenalan Pola Proporsi Pelaksanaan Tridharma. Universitas Diponegoro Semarang Diunduh pada 17 November 2015
Vivin Dwi Retnaningsih| 12.1.03.02.0417 Fakultas Teknik– Prodi Teknik Informatika
simki.unpkediri.ac.id || 7||