ffiDhtrEpffi{sn
HAs[oHA[-
E(A"
SA,EF{S EAF{ APLTE{A!STF{?'*.
{[1raA,*SA
2OIS]
[!rrlaglri!ir"l*;l:r []rrnlnlit,iilru [!nt ttltutt ika rl:tn S;ritls llltt uk [l rrttrlu l* t! txg- !l tr):llil
I misllit - IialullllttE' 3{l "lllrli I[l[:f
umfirbo
1.'ttl !l;t11.,'4,. \-' "7 !
2", J'rt.lit I
i
PROSIDING Konferensi Nasional Matematika, Sains dan Aplikasinya Tahun 20L3 Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Islam Bandung Bandung, ]awa Barat 20 ]uni 20Lg
Menghilirkan Penelitian Matematika dan Sains untuk Mendukung MP3EI
ISBN: 978402-7935G7-g Cooer Design
R. DachlanMuchlis, Drs.,
TimProsiiling
Suliadi, S.Si., M.Si, PhD
MI.
Dr. Embit Kartadarma Dr. Acmg K. Mutaqin, MT., M.Si TetiSofia Yanti, Dra", M.Si Suwendar, S.Si., M.Si.,
Apt
Ruli Nugraha, S.Si
Dipublikasikan
oleh
:
Fakultas Matematika
danltnu Pengetahuan Alam
l-lniaersitas Islam Bandung, Bandung - lmna Bmat
21[uli201.3
Daftar Isi Hal
i iii
Dewan Editor Kata Pengantar Daftar Isi
v
Penentuan Batas-batas Diagram Kontrol Dispersi Multivariat
W dengan
1-11
Metode Bootstrap Suwanda
Analisis dan Implementasi Local Distance Based Outlier Factor dalam Mendeteksi Outlier pada Data Numerik Yudhi Maulana, Mahmud Imrona, Hetti Hidayati
t3-20
di
2l-37
Forecasting Jumlah Penduduk
Jawa Barat
dengan
Metode
Dekomposisi Agus Supriatna, Dwi Susanti, Elis Hertini Hat Matrik pada GLM Suliadi, R" Dachlan Muchlis
39-48
Analisis Keterkaitan Antar sektor Ekonomi Sebagai Komponen Industri Unggulan Di Kota Bandung Teti Sofia Yanti, Onoy Rohaeni, Fuji Astuti
49-59
Hubungan Antara Pengangguran Dengan Masyarakat Yang Minta Surat Keterangan Miskin Lisnur Wachidah
6l-71
Pelabelan Total Tak Teratur Titik pada Graf Lllar-kC4 Elies Rachmawati, Rismawati Ramdani, Siti Julaeha
73-78
Penerapan Fvz-zy Multiple Attribute Decision Making
(FMADM) dengan Metode Penjumlahan Terbobot (Simple Additive Weighting ) untuk Me-
79-95
Penentuan Utility Function Menggunakan Deret Taylor dalam pembentukan Portofolio Saham Optimal Onoy Rohaeni
97-t0s
Penggunaan Ubi Jalar Ungu (Ipomoea batatas L.) Sebagai Alami Dalam Titrasi Asam Basa Syarif Hamdani, Cynthia Yinawati, Adang Firmansyah
lO7-122
nentukan Siswa Berprestasi Terbaik B o lds on Herdianto Situmo rang, Isnaeni Hafity ani
10
Indikator
Prosiding Konferensi Nasional Matematika, Sains dan Aplikasinya Tahun 2013
Analisis dan Implementasi Local Distance Based Outlier Factor dalam Mendeteksi Outlier Pada Data Numerik Yudhi Maulanal, Mahmud Imrona, Drs., MT.2, Hetti Hidayati, S.Kom., MT.3 l'3Fakultas Informatika, 'Fak rlt t Suirrs Institut Teknologi Telkom
[email protected],'mhdpittelkom'ac'id, 3htt@ittelkom'ac'id
-*XH["g dalam data mining, bertujuan untuk Deteksi outlier merupakan salah satu mencari data yang memiliki karakteristik berbeda dengan kebanyakan data lainnya. Dalam dataset yang besar, deteksi outlier dianggap merupakan permasalahan yang sangat sulit jikadibandingkan dengan dataset yang kecil. Kebanyakan metode deteksi outli", sering tidak cocok diaplikasikan di dunia nyata karena data di dunia nyata biasanya *"n ititi distribusi yang tersebar. Stnrktur data tersebar tidak secara eksplisit mempiesentasikan perilaku data normal dan tidak adatyalabel yang menunjukkandata terse6ut dikatakal sebagai outlier. Pada deteksi outlier dengan algoritna LDOF, pencarian data yang *"nyi*p*g dapat ditemukan. Metode LDOF ini berbasiskan d.rg* memperhitungkan nilai LDOF yang merepresentasikan pendekatan derajat suatu data lalu-membandingkannya de,ngan nilai Lower Bound LDOF yaitu batas nilai yang digunakan untuk mengetahui apakah data termasuk dalam outlier ata,tr bukan dan mengurutkannya berdasarkan nilai LDOF terbesar sampai terkecil dimana data dengan nlai fOOf terbesar merupakan outlier yang dicari. Pengujian dilakukan dengan beberapa skenario untuk me,ngetahui nilai akurasi, error rate, dan FPR. LDOF dapit mendetJksi outlier dengan tingkat akurasi yang baik pada data yang memiliki
j*rk,
di
stribusi data y ang b erb eda-beda.
Kata Kun ci: butiier, LDOF, deteksi outlier, distance based approach
1.
Pendahuluan
Dengan berke,nrbangnya teknologi informasi, dipastikan
j"*lah
data yang tersimpan
yang sangat akan terus meningkat dan aktrirnya dapat menimbulkan ledakan data.Data
banyak tersebut dapat diolah menjadi informasi atau pengetahuan yang berguna bila diikuti dengan analisis yang disebut dengan data mining. Hawkins (1980)
mendefinisikan outlier sebagai suatu bentuk pengamatan yang menyimpang dari pengamatan lainnya sehingga menimbulkan kecurigaan bahwa hal tersebut dihasilkan oleh mekanisme yang berbeda. Beberapa pendekatan metode yang dapat melakukan pendeteksian outlier aatara la|rlo distribution based methads, depth-based, deviationbased, distancebased, density based, clustering-based, sub-space based, support vector 13
14
Yudhi Maulana, dkk
based, dan neutrol network based U,2,5). Namun, metode ini sering tidak cocok diaplikasikan di dunia nyata karena data di dunia nyata biasanya memiliki distribusi yang tersebar. Struktur data tersebar tidak secara eksplisit mempresentasikan perilaku data normal dan tidak ada nya label yang menunjukkan datatersebut dikatakan sebagai outlier" Cluster kecil dalam suatu dataset yang tersebar biasanya memiliki jumlah objek yang relatif kecil. Kelompok kecil ini harus diakui "normal" bahkan jika mengandung sejumlah kecil objek, tidak langsung menganggap kelompok kecil ini sebagai outlier. Masalah lain yang terjadi pada data tersebar yaitu objek-objek didistribusikan tersebar pada ruang karakteristik yu, secara lokal objek dialokasikan secara acak. Maka untuk menangani hal tersebut digunakan sebuah metode Local Distance-Based Outlier
Factor (LDOF) yang baik digunakan pada data yang tersebar karena LDOF mengukur sejauh
mana suatu objek menyimpang dari lingkungan yang tersebar.
2.
Dasar Teori
2.1 Data Mining Dato minizg merupakan proses untuk mengeksfaksi atau menggali pengetahuan dari data yang sangat besar [2]. Kemunculan data mining dilatar belakangi oleh meningkatnya volume data dari waktu ke waktu yang tidak diikuti dengan analisis untuk menghasilkan pengetahuan baru. Proses yang dilalnrkan dalam data
mining meliputi penggalian informasi yang bernilai atau pencarian hubungan dan pola-pola yang sebelumnya tersembunyi dalam sebuah basis data yang sangat besar.
2.2 Data Preprocessing Sebelurn data siap unfuk di mining, data harus melalui tahap data preprocessingdengan
tujuan mengubah input data mentah menjadi format yang diinginkan untuk dilakukan
analisis berikutnya dan untuk meningkatkan kualitas data yarlg nantinya akan meningkatkan keakuratan dan efisiensi dari rangkaian proses mining"
2.3 Outlier Detection Outlier detection bertujuan untuk menemukan objek yang berbeda dari kebanyakan objek" Objek yang berbeda karakteristiknya dengan objek lain sering juga disebut dengan outlier. Outlier merupakan sehimpunan data yang dianggap memiliki sifat atau karakter yang berbeda dibandingkan dengan kebanyakan data lainnya. Hawkins (19g0)
mendefinisikan outlier sebagai suatu bentuk pengamatan yang menyimpang dari Prosiding Konferensi Nasional Matematika, Sains dan Aplikasinya Tahu n 2013
Analisis dan Implementasi Local Distance Based Outlier Factor
15
pengamatan lainnya sehingga menimbulkan kecurigaan bahwa hai tersebut dihasilkan
oleh mekanisme yang berbeda" Outlier dapat muncul karena banyak hal, antara lain kesalahan ketika mengenki data, kesalahan pada saat pengukuran dan pengumpulan data, atau memang sifat asli dari data
error
atau noise, tetapi terkadang
itu sendiri. Seringkali outlier dianggap sebagai
outlier dapat berisi informasi yang penting"
2.4 LocalDistance Outlier Factor Salah satu metode dalam pendeteksian outlier yang menggunakan pendekatan jarak
dalam melakukan pendeteksian outlier. LDOF Muupakan rasio jarak yrrrrg menunjukkan sejauh mana objek terletak di luar sistem ketetanggaannya [3]. I
1
I
1,
!
;", I
I
I
Gambar 1. Penjelasan dari ke outlier-an objek,rrdengan bantuan metode LDOF
2.5 Algoritma Local Distance Outlier Faetor (LDOF) Algoritma LDOF ini dikutip dari Ke Zhang,Marcus Hutter dan Huidong Jin (2009)
1. Untuk dataset D yang diberikan, masukkan nilai N dan K. 2. Untuk setiap objek p dalam D, arrrbil p dengan K-nearest
:
neighbours.
Hitung LDOF untuk setiap p objek.
3.
Obyekdengan LDOF
Urutkan list N berdasarkan nilai nilai LDOF tertinggi.
2.6 LDOF Lower Bound Lower bound LDOF (LDOFlb) adalah suatu batas nilai yang digunakan untuk membedakan objek abnormal dari objek normal. Ketika LDOF diletalCcan
=;
,objek dengan tepat
di dalam sekumpulan objek, dengan kata lain objek tersebut bukan outlier.
LDOFIb menetapkan sebuah aturan pemangkasan yaitu objek dapatlangsung diabaikan
Prosiding Konferensi Nasional Matematika, Sains Dasar dan Aplikasinya Tahun2013
16
Yudhi Maulana, dkk
jika objek-objek tersebut memiliki nilai LDOF LDOF >
3.
3
.
1,
*d*gkan
untuk nilai dengan nilai
maka data tersebut dipastikan terdeteksi sebagai outlier
l3l"
Perancangan Sistem
3.L Deskripsi dan Analisis Sistem Secara umum, sistem yang dibuat pada Penelitian
ini merupakan sebuah sistem yang
menerima inputan berupa dataset serta tiga inputan parameter yang harus diinputkan oleh user. Berikut ini merupakan blok diagram dari keseluruhan proses:
WT!I
Gambar 2. Blok diagram proses deteksi outlier Sistem yang dibuat merupakan implementasi dari meiode LDOF yang merupakan salah satu metode dalam pendeteksian
outlier. Sebelum dilakukan proses deteksi outlier, jika
didalam dataset terdapat rnissing value atau nilai yang berisi *null" maka akan dilakukan proses preprocessing yang dilakukan diluar sistem terlebih dahulu untuk menggantikat missing value tersebut. Dalam melakukan evaluasi terhadap hasil deteksi sistern, dilakukan dengan cara menganalisis tingkat akurasi atau ketepatan sistem dalam
mendeteksi suatu data yang merupakan outlier atau bukan dengan cara rnenggunakan dataset hasil prediksi yang dilakukan dengan tools Rapidminer"
3.2 Perancangan Antar Muka
Antar muka didesain secara sederhana agar dapat digunakan dengan mudah" Antar
Prosiding Konferensi Nasional Matematika, Sains dan Aplikasinya Tahun 2013
Analisis dan Implementasi Local Distance Based outlier Factor
17
muka sistem terdiri dari satu menu utama yang terdiri dari beberapa tombol dan panel" Dimulai dari tombol Load Data unfiik memilih dataset masukan, tombol Cari Outlier
untuk memulai proses pencarian outlier dan menampilkan hasil yang diperoleh dari pendeteksian outlier dan tombol Keluar untuk keluar dari sistem" Selain itu, tersedia juga nga field har"ts diinput oleh penggunan yaitu nilai K, Ldoflb dan N. Untuk input parameter N, akan diberikan batas maksimal penginputan nilai N dimana batas
maksimal tersebut merupakan total dari jumr ah outlier yang ad,apada dataset. l:t:::at
, :i.
Gambar
3.
g
0"8
E g
0.4
"@. "t-
:tltt..
:1.1"-".-::
:::;i:i!1"'.-. :t.:1
I
'w&
#-
fr::aa::.1!,at;ait;:;a
.,,.
-
::.-
/!ji:.!
:.;- '
t;ir,r;;itff:'i;ll-
Perancangan antar muka form utama
*tr o"e g 0.2 .) G*
NA'M=S:RSBtsR8 i{
(O I',
Gambar 4- Grafik pengaruh perubahan nilai
K terhadap nrlai detection ratepada dataset WDBC
4.
Analisis Pengujian
4.1 Pengujian Dataset WDBC Dataset WDBC merupakan data ekstraksi sifat nuklir untuk diagnosis tumor payudara. Dataset ini berasal dari UCI Repository terdiri dari 569 instances derrgan 32 atribut (30 feature numerik, ID number, dan dalam dataset ini. Jumlah klaster terdiri
l"
I
class name).
Tidak
ada
missing value
dai 2class, dengan dishibusi sebagai berikut:
357 instances adalah class Benign
Prosiding Konferensi Nasional Matematika, Sains Dasar dan Aplikasinya Tahu n2013
18
2.
Yudhi Maulana, dkk
272 instances adalah elass Malignant
Model distribusi data pada pengujian ini terdiri
dam
2 klaster data yaitu class Benign
dan Malignant dimana class lulalignant merupakan data yang didiagnosis sebagai
outlier" Pada pengujian dataset WDBC ini dilakukan dengan mengubah inputan nilai K dari mulai 2,3, 4, 5, 6,7,8, 9, 10, 11, 12, L3, 14, 15,20, 3A,75, 150, 370, hingga 550, serta inputan nilai
N yaitu 70, 720, 170, 212 yang merupakan jumlah outlier
yang
diharapkan terdeteksi dalam dataset WDBC
Berikut grafik Perbandingan nilai detection rate, error rate, dan FPR terhadap jumlah Top N outlier pada datase,
Pr": ,t':'
I
* $66ie*id* **r*ffi a;e
j
IA
rt*
Gambar 5" Perbandingan nrlai detection rate, error rate, danFPR terhadap jumlah Top N outlier pada dataset WDBC
4"3
Analisis Pengaruh Pertambahan Jumlah Instances terhadap Waktu Proses Deteksi Outlier
Dibawah ini merupakan grafik pengaruh jumlah instances terhadap waktu pros€s yang dibututrkan untuk mendeteksi outlier pada suatu dataset.
{ai
!n
cl* gt$
{*
*re
*tu 5
*
tllffi l$ss lgs{,diffis,sffi :*dt{t ?ffi
*ssq
@&lffi Gambar
6. Grafik waktu proses dipengaruhi
oleh jumlah instance
Prosiding Konferensi Nasional Matematika, Sains dan Aplikasinya Tahun 2013
Analisis dan Implementasi Local Distance Based Outlier Factor
4.4 Analisis Pengaruh Pertambahan Jumlah Top
19
N Outlier terhadap
Waktu
Proses Deteksi Outlier
Dibawah ini merupakan grafik pengaruh jumlah instances terhadap waktu proses yang dibutuhkan untuk mendeteksi outlier pada suatu dataset.
Gambar 4-4 : Grafik waktu proses dipengaruhi oleh jumlah Top N outlier
5"
Kesimpulan dan Saran
5.1 Kesimpulan
l'
Nilai rata-rata akurasi yaitu
rulau detection
rate optimal yang didapatkan dari hasil pendeteksian outlier dengan metode LDOF pada semua dataset uji adalah 0.812.
2' Nilai
detection rate dari metode LDOF dipengaruhi oleh penentuan nilai K. Selain itu inputan nilai N juga berpengaruh pada akurasi dai metode LDOF. Pertambahan nilai N membuat nilai akurasi menurun.
3'
Model distribusi data yang berbeda tidak mempengaruhi keakuratan dan kinerja dari metode LDOF"
4'
jumlah instances dan jumlah Top N outlier menyebabkan wakfu proses yang dibutuhkan oleh metode LDOF untuk melakukan deteksi outlier Pertambahan
semakin besar.
5.2 Saran
1'
Pada penelitian
ini analisis hanya dilakukan pada
dataset bertipe numerik
untuk mengetahui keakuratan serta kemampuan metode LDOF
saj*
dalam
Prosiding Konferensi Nasional Matematika, Sains Dasar dan Aplikasinya Tahu n 2013
20
Yudhi Maulana, dl&
mendeteksi outlier lebih mendalam dapat dilakukan dengan menggunakan dataset bertipe kategorikal.
2.
Selain memperbesar nilai
K
untuk mendapatkan akurasi yang baik
saat
pendeteksian outlier dapat dicari variabel lain yang mempengaruhi keakuratan dari metode LDOF.
Daftar Pustaka Ben-Gal, I.(2005)" Outlier detection,In: Mairnon O. and Rockach t.(Eds") Data Mining and Knowledge Discovery Handbook: A CompleteGuide for Practitioners and Researchers, Kluwer Academic Publishers,Is BN 0 -3 87 -2443 5 -2.
Han, J., Kamber, M" (2001). Data Mining: Concepts and Techniques, Morgan Kaufrnann, Academic Press, USA.
Z*9,
Ke., Hutter, Marcus., Jin, Huidong" (2009). A new local distance-based outlier detection approach for scattered real-world dafa. RSISE, Australian National University
V. (2000). Distance-based outliers: Algorithms and applications, WDB Journal 8, pp. 237153.
Knorr, 8., Ng, R., Tucakov,
He, 2., Xu, X., Huang, J., Deng, S. (2004). Mining Class Outliers: Concepts, Algorithms and Applications in CRM, Expert Systems with Applications (ESWA'04),
27
(4): pp.
68
1
-697, 2004 "
Handriyadi, Dedi. (2009). Analisis Perbandingan Clustering-Based,Distanee-Based dan Density-Based dalarn Mendeteksi Outlier, Fakultaslnformatika, IT Telkom Bandung.
N. Saad, M. (2007). class outliers Mining: Distance-Based Approach, Intemational Joumal of Intelligent Systems and Technologies,Vol. 2, No. 1, pp ss-68
Hewahi,
Widyastuti, Naniek. (2010). Jurnal Telvtologi : Deteksi Data Pencilan Menggunakan K_Means Clustering. 3(1).pp 16-21 Hewahi, N. Saad, M. (2009). A Comparative Study of Outlier Mining and Class Outlier Mining, Computer Science Letters, Vol. 1. Mansur, M.O., Md, Moh.Noor. (2005). Outlier Detection Technique in Data Mining : A Research Perspective. Proceedings of the Postgraduate Annual Research Seminar 2005"
Prosiding Konferensi Nasional Matematika, Sains dan Aplikasinya Tahun 2013