umfirbo ffidhtrepffi{sn HAs[oHA[- SA,EF{S EAF{ APLTE{A!STF{?'. {[1raA,SA 2OIS] E(A" I misllit - IialullllttE' 3{l "lllrli I[l[:f

ffiDhtrEpffi{sn

HAs[oHA[-

E(A"

SA,EF{S EAF{ APLTE{A!STF{?'*.

{[1raA,*SA

2OIS]

[!rrlaglri!ir"l*;l:r []rrnlnlit,iilru [!nt ttltutt ika rl:tn S;ritls llltt uk [l rrttrlu l* t! txg- !l tr):llil

I misllit - IialullllttE' 3{l "lllrli I[l[:f

umfirbo

1.'ttl !l;t11.,'4,. \-' "7 !

2", J'rt.lit I

i

PROSIDING Konferensi Nasional Matematika, Sains dan Aplikasinya Tahun 20L3 Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Islam Bandung Bandung, ]awa Barat 20 ]uni 20Lg

Menghilirkan Penelitian Matematika dan Sains untuk Mendukung MP3EI

ISBN: 978402-7935G7-g Cooer Design

R. DachlanMuchlis, Drs.,

TimProsiiling

Suliadi, S.Si., M.Si, PhD

MI.

Dr. Embit Kartadarma Dr. Acmg K. Mutaqin, MT., M.Si TetiSofia Yanti, Dra", M.Si Suwendar, S.Si., M.Si.,

Apt

Ruli Nugraha, S.Si

Dipublikasikan

oleh

:

Fakultas Matematika

danltnu Pengetahuan Alam

l-lniaersitas Islam Bandung, Bandung - lmna Bmat

21[uli201.3

Daftar Isi Hal

i iii

Dewan Editor Kata Pengantar Daftar Isi

v

Penentuan Batas-batas Diagram Kontrol Dispersi Multivariat

W dengan

1-11

Metode Bootstrap Suwanda

Analisis dan Implementasi Local Distance Based Outlier Factor dalam Mendeteksi Outlier pada Data Numerik Yudhi Maulana, Mahmud Imrona, Hetti Hidayati

t3-20

di

2l-37

Forecasting Jumlah Penduduk

Jawa Barat

dengan

Metode

Dekomposisi Agus Supriatna, Dwi Susanti, Elis Hertini Hat Matrik pada GLM Suliadi, R" Dachlan Muchlis

39-48

Analisis Keterkaitan Antar sektor Ekonomi Sebagai Komponen Industri Unggulan Di Kota Bandung Teti Sofia Yanti, Onoy Rohaeni, Fuji Astuti

49-59

Hubungan Antara Pengangguran Dengan Masyarakat Yang Minta Surat Keterangan Miskin Lisnur Wachidah

6l-71

Pelabelan Total Tak Teratur Titik pada Graf Lllar-kC4 Elies Rachmawati, Rismawati Ramdani, Siti Julaeha

73-78

Penerapan Fvz-zy Multiple Attribute Decision Making

(FMADM) dengan Metode Penjumlahan Terbobot (Simple Additive Weighting ) untuk Me-

79-95

Penentuan Utility Function Menggunakan Deret Taylor dalam pembentukan Portofolio Saham Optimal Onoy Rohaeni

97-t0s

Penggunaan Ubi Jalar Ungu (Ipomoea batatas L.) Sebagai Alami Dalam Titrasi Asam Basa Syarif Hamdani, Cynthia Yinawati, Adang Firmansyah

lO7-122

nentukan Siswa Berprestasi Terbaik B o lds on Herdianto Situmo rang, Isnaeni Hafity ani

10

Indikator

Prosiding Konferensi Nasional Matematika, Sains dan Aplikasinya Tahun 2013

Analisis dan Implementasi Local Distance Based Outlier Factor dalam Mendeteksi Outlier Pada Data Numerik Yudhi Maulanal, Mahmud Imrona, Drs., MT.2, Hetti Hidayati, S.Kom., MT.3 l'3Fakultas Informatika, 'Fak rlt t Suirrs Institut Teknologi Telkom [email protected],'mhdpittelkom'ac'id, 3htt@ittelkom'ac'id

-*XH["g dalam data mining, bertujuan untuk Deteksi outlier merupakan salah satu mencari data yang memiliki karakteristik berbeda dengan kebanyakan data lainnya. Dalam dataset yang besar, deteksi outlier dianggap merupakan permasalahan yang sangat sulit jikadibandingkan dengan dataset yang kecil. Kebanyakan metode deteksi outli", sering tidak cocok diaplikasikan di dunia nyata karena data di dunia nyata biasanya *"n ititi distribusi yang tersebar. Stnrktur data tersebar tidak secara eksplisit mempiesentasikan perilaku data normal dan tidak adatyalabel yang menunjukkandata terse6ut dikatakal sebagai outlier. Pada deteksi outlier dengan algoritna LDOF, pencarian data yang *"nyi*p*g dapat ditemukan. Metode LDOF ini berbasiskan d.rg* memperhitungkan nilai LDOF yang merepresentasikan pendekatan derajat suatu data lalu-membandingkannya de,ngan nilai Lower Bound LDOF yaitu batas nilai yang digunakan untuk mengetahui apakah data termasuk dalam outlier ata,tr bukan dan mengurutkannya berdasarkan nilai LDOF terbesar sampai terkecil dimana data dengan nlai fOOf terbesar merupakan outlier yang dicari. Pengujian dilakukan dengan beberapa skenario untuk me,ngetahui nilai akurasi, error rate, dan FPR. LDOF dapit mendetJksi outlier dengan tingkat akurasi yang baik pada data yang memiliki

j*rk,

di

stribusi data y ang b erb eda-beda.

Kata Kun ci: butiier, LDOF, deteksi outlier, distance based approach

1.

Pendahuluan

Dengan berke,nrbangnya teknologi informasi, dipastikan

j"*lah

data yang tersimpan

yang sangat akan terus meningkat dan aktrirnya dapat menimbulkan ledakan data.Data

banyak tersebut dapat diolah menjadi informasi atau pengetahuan yang berguna bila diikuti dengan analisis yang disebut dengan data mining. Hawkins (1980)

mendefinisikan outlier sebagai suatu bentuk pengamatan yang menyimpang dari pengamatan lainnya sehingga menimbulkan kecurigaan bahwa hal tersebut dihasilkan oleh mekanisme yang berbeda. Beberapa pendekatan metode yang dapat melakukan pendeteksian outlier aatara la|rlo distribution based methads, depth-based, deviationbased, distancebased, density based, clustering-based, sub-space based, support vector 13

14

Yudhi Maulana, dkk

based, dan neutrol network based U,2,5). Namun, metode ini sering tidak cocok diaplikasikan di dunia nyata karena data di dunia nyata biasanya memiliki distribusi yang tersebar. Struktur data tersebar tidak secara eksplisit mempresentasikan perilaku data normal dan tidak ada nya label yang menunjukkan datatersebut dikatakan sebagai outlier" Cluster kecil dalam suatu dataset yang tersebar biasanya memiliki jumlah objek yang relatif kecil. Kelompok kecil ini harus diakui "normal" bahkan jika mengandung sejumlah kecil objek, tidak langsung menganggap kelompok kecil ini sebagai outlier. Masalah lain yang terjadi pada data tersebar yaitu objek-objek didistribusikan tersebar pada ruang karakteristik yu, secara lokal objek dialokasikan secara acak. Maka untuk menangani hal tersebut digunakan sebuah metode Local Distance-Based Outlier

Factor (LDOF) yang baik digunakan pada data yang tersebar karena LDOF mengukur sejauh

mana suatu objek menyimpang dari lingkungan yang tersebar.

2.

Dasar Teori

2.1 Data Mining Dato minizg merupakan proses untuk mengeksfaksi atau menggali pengetahuan dari data yang sangat besar [2]. Kemunculan data mining dilatar belakangi oleh meningkatnya volume data dari waktu ke waktu yang tidak diikuti dengan analisis untuk menghasilkan pengetahuan baru. Proses yang dilalnrkan dalam data

mining meliputi penggalian informasi yang bernilai atau pencarian hubungan dan pola-pola yang sebelumnya tersembunyi dalam sebuah basis data yang sangat besar.

2.2 Data Preprocessing Sebelurn data siap unfuk di mining, data harus melalui tahap data preprocessingdengan

tujuan mengubah input data mentah menjadi format yang diinginkan untuk dilakukan

analisis berikutnya dan untuk meningkatkan kualitas data yarlg nantinya akan meningkatkan keakuratan dan efisiensi dari rangkaian proses mining"

2.3 Outlier Detection Outlier detection bertujuan untuk menemukan objek yang berbeda dari kebanyakan objek" Objek yang berbeda karakteristiknya dengan objek lain sering juga disebut dengan outlier. Outlier merupakan sehimpunan data yang dianggap memiliki sifat atau karakter yang berbeda dibandingkan dengan kebanyakan data lainnya. Hawkins (19g0)

mendefinisikan outlier sebagai suatu bentuk pengamatan yang menyimpang dari Prosiding Konferensi Nasional Matematika, Sains dan Aplikasinya Tahu n 2013

Analisis dan Implementasi Local Distance Based Outlier Factor

15

pengamatan lainnya sehingga menimbulkan kecurigaan bahwa hai tersebut dihasilkan

oleh mekanisme yang berbeda" Outlier dapat muncul karena banyak hal, antara lain kesalahan ketika mengenki data, kesalahan pada saat pengukuran dan pengumpulan data, atau memang sifat asli dari data

error

atau noise, tetapi terkadang

itu sendiri. Seringkali outlier dianggap sebagai

outlier dapat berisi informasi yang penting"

2.4 LocalDistance Outlier Factor Salah satu metode dalam pendeteksian outlier yang menggunakan pendekatan jarak

dalam melakukan pendeteksian outlier. LDOF Muupakan rasio jarak yrrrrg menunjukkan sejauh mana objek terletak di luar sistem ketetanggaannya [3]. I

1

I

1,

!

;", I

I

I

Gambar 1. Penjelasan dari ke outlier-an objek,rrdengan bantuan metode LDOF

2.5 Algoritma Local Distance Outlier Faetor (LDOF) Algoritma LDOF ini dikutip dari Ke Zhang,Marcus Hutter dan Huidong Jin (2009)

1. Untuk dataset D yang diberikan, masukkan nilai N dan K. 2. Untuk setiap objek p dalam D, arrrbil p dengan K-nearest

:

neighbours.

Hitung LDOF untuk setiap p objek.

3.

Obyekdengan LDOF
Urutkan list N berdasarkan nilai nilai LDOF tertinggi.

2.6 LDOF Lower Bound Lower bound LDOF (LDOFlb) adalah suatu batas nilai yang digunakan untuk membedakan objek abnormal dari objek normal. Ketika LDOF diletalCcan

=;

,objek dengan tepat

di dalam sekumpulan objek, dengan kata lain objek tersebut bukan outlier.

LDOFIb menetapkan sebuah aturan pemangkasan yaitu objek dapatlangsung diabaikan

Prosiding Konferensi Nasional Matematika, Sains Dasar dan Aplikasinya Tahun2013

16

Yudhi Maulana, dkk

jika objek-objek tersebut memiliki nilai LDOF LDOF >

3.

3

.

1,

*d*gkan

untuk nilai dengan nilai

maka data tersebut dipastikan terdeteksi sebagai outlier

l3l"

Perancangan Sistem

3.L Deskripsi dan Analisis Sistem Secara umum, sistem yang dibuat pada Penelitian

ini merupakan sebuah sistem yang

menerima inputan berupa dataset serta tiga inputan parameter yang harus diinputkan oleh user. Berikut ini merupakan blok diagram dari keseluruhan proses:

WT!I

Gambar 2. Blok diagram proses deteksi outlier Sistem yang dibuat merupakan implementasi dari meiode LDOF yang merupakan salah satu metode dalam pendeteksian

outlier. Sebelum dilakukan proses deteksi outlier, jika

didalam dataset terdapat rnissing value atau nilai yang berisi *null" maka akan dilakukan proses preprocessing yang dilakukan diluar sistem terlebih dahulu untuk menggantikat missing value tersebut. Dalam melakukan evaluasi terhadap hasil deteksi sistern, dilakukan dengan cara menganalisis tingkat akurasi atau ketepatan sistem dalam

mendeteksi suatu data yang merupakan outlier atau bukan dengan cara rnenggunakan dataset hasil prediksi yang dilakukan dengan tools Rapidminer"

3.2 Perancangan Antar Muka

Antar muka didesain secara sederhana agar dapat digunakan dengan mudah" Antar


Analisis dan Implementasi Local Distance Based outlier Factor

17

muka sistem terdiri dari satu menu utama yang terdiri dari beberapa tombol dan panel" Dimulai dari tombol Load Data unfiik memilih dataset masukan, tombol Cari Outlier

untuk memulai proses pencarian outlier dan menampilkan hasil yang diperoleh dari pendeteksian outlier dan tombol Keluar untuk keluar dari sistem" Selain itu, tersedia juga nga field har"ts diinput oleh penggunan yaitu nilai K, Ldoflb dan N. Untuk input parameter N, akan diberikan batas maksimal penginputan nilai N dimana batas

maksimal tersebut merupakan total dari jumr ah outlier yang ad,apada dataset. l:t:::at

, :i.

Gambar

3.

g

0"8

E g

0.4

"@. "t-

:tltt..

:1.1"-".-::

:::;i:i!1"'.-. :t.:1

I

'w&

#-

fr::aa::.1!,at;ait;:;a

.,,.

-

::.-

/!ji:.!

:.;- '

t;ir,r;;itff:'i;ll-

Perancangan antar muka form utama

*tr o"e g 0.2 .) G*

NA'M=S:RSBtsR8 i{

(O I',

Gambar 4- Grafik pengaruh perubahan nilai

K terhadap nrlai detection ratepada dataset WDBC

4.

Analisis Pengujian

4.1 Pengujian Dataset WDBC Dataset WDBC merupakan data ekstraksi sifat nuklir untuk diagnosis tumor payudara. Dataset ini berasal dari UCI Repository terdiri dari 569 instances derrgan 32 atribut (30 feature numerik, ID number, dan dalam dataset ini. Jumlah klaster terdiri

l"

I

class name).

Tidak

ada

missing value

dai 2class, dengan dishibusi sebagai berikut:

357 instances adalah class Benign

Prosiding Konferensi Nasional Matematika, Sains Dasar dan Aplikasinya Tahu n2013

18

2.

Yudhi Maulana, dkk

272 instances adalah elass Malignant

Model distribusi data pada pengujian ini terdiri

dam

2 klaster data yaitu class Benign

dan Malignant dimana class lulalignant merupakan data yang didiagnosis sebagai

outlier" Pada pengujian dataset WDBC ini dilakukan dengan mengubah inputan nilai K dari mulai 2,3, 4, 5, 6,7,8, 9, 10, 11, 12, L3, 14, 15,20, 3A,75, 150, 370, hingga 550, serta inputan nilai

N yaitu 70, 720, 170, 212 yang merupakan jumlah outlier

yang

diharapkan terdeteksi dalam dataset WDBC

Berikut grafik Perbandingan nilai detection rate, error rate, dan FPR terhadap jumlah Top N outlier pada datase,

Pr": ,t':'

I

* $66ie*id* **r*ffi a;e

j

IA

rt*

Gambar 5" Perbandingan nrlai detection rate, error rate, danFPR terhadap jumlah Top N outlier pada dataset WDBC

4"3

Analisis Pengaruh Pertambahan Jumlah Instances terhadap Waktu Proses Deteksi Outlier

Dibawah ini merupakan grafik pengaruh jumlah instances terhadap waktu pros€s yang dibututrkan untuk mendeteksi outlier pada suatu dataset.

{ai

!n

cl* gt$

{*

*re

*tu 5

*

tllffi l$ss lgs{,diffis,sffi :*dt{t ?ffi

*ssq

@&lffi Gambar

6. Grafik waktu proses dipengaruhi

oleh jumlah instance


Analisis dan Implementasi Local Distance Based Outlier Factor

4.4 Analisis Pengaruh Pertambahan Jumlah Top

19

N Outlier terhadap

Waktu

Proses Deteksi Outlier

Dibawah ini merupakan grafik pengaruh jumlah instances terhadap waktu proses yang dibutuhkan untuk mendeteksi outlier pada suatu dataset.

Gambar 4-4 : Grafik waktu proses dipengaruhi oleh jumlah Top N outlier

5"

Kesimpulan dan Saran

5.1 Kesimpulan

l'

Nilai rata-rata akurasi yaitu

rulau detection

rate optimal yang didapatkan dari hasil pendeteksian outlier dengan metode LDOF pada semua dataset uji adalah 0.812.

2' Nilai

detection rate dari metode LDOF dipengaruhi oleh penentuan nilai K. Selain itu inputan nilai N juga berpengaruh pada akurasi dai metode LDOF. Pertambahan nilai N membuat nilai akurasi menurun.

3'

Model distribusi data yang berbeda tidak mempengaruhi keakuratan dan kinerja dari metode LDOF"

4'

jumlah instances dan jumlah Top N outlier menyebabkan wakfu proses yang dibutuhkan oleh metode LDOF untuk melakukan deteksi outlier Pertambahan

semakin besar.

5.2 Saran

1'

Pada penelitian

ini analisis hanya dilakukan pada

dataset bertipe numerik

untuk mengetahui keakuratan serta kemampuan metode LDOF

saj*

dalam

Prosiding Konferensi Nasional Matematika, Sains Dasar dan Aplikasinya Tahu n 2013

20

Yudhi Maulana, dl&

mendeteksi outlier lebih mendalam dapat dilakukan dengan menggunakan dataset bertipe kategorikal.

2.

Selain memperbesar nilai

K

untuk mendapatkan akurasi yang baik

saat

pendeteksian outlier dapat dicari variabel lain yang mempengaruhi keakuratan dari metode LDOF.

Daftar Pustaka Ben-Gal, I.(2005)" Outlier detection,In: Mairnon O. and Rockach t.(Eds") Data Mining and Knowledge Discovery Handbook: A CompleteGuide for Practitioners and Researchers, Kluwer Academic Publishers,Is BN 0 -3 87 -2443 5 -2.

Han, J., Kamber, M" (2001). Data Mining: Concepts and Techniques, Morgan Kaufrnann, Academic Press, USA.

Z*9,

Ke., Hutter, Marcus., Jin, Huidong" (2009). A new local distance-based outlier detection approach for scattered real-world dafa. RSISE, Australian National University

V. (2000). Distance-based outliers: Algorithms and applications, WDB Journal 8, pp. 237153.

Knorr, 8., Ng, R., Tucakov,

He, 2., Xu, X., Huang, J., Deng, S. (2004). Mining Class Outliers: Concepts, Algorithms and Applications in CRM, Expert Systems with Applications (ESWA'04),

27

(4): pp.

68

1

-697, 2004 "

Handriyadi, Dedi. (2009). Analisis Perbandingan Clustering-Based,Distanee-Based dan Density-Based dalarn Mendeteksi Outlier, Fakultaslnformatika, IT Telkom Bandung.

N. Saad, M. (2007). class outliers Mining: Distance-Based Approach, Intemational Joumal of Intelligent Systems and Technologies,Vol. 2, No. 1, pp ss-68

Hewahi,

Widyastuti, Naniek. (2010). Jurnal Telvtologi : Deteksi Data Pencilan Menggunakan K_Means Clustering. 3(1).pp 16-21 Hewahi, N. Saad, M. (2009). A Comparative Study of Outlier Mining and Class Outlier Mining, Computer Science Letters, Vol. 1. Mansur, M.O., Md, Moh.Noor. (2005). Outlier Detection Technique in Data Mining : A Research Perspective. Proceedings of the Postgraduate Annual Research Seminar 2005"


umfirbo ffidhtrepffi{sn HAs[oHA[- SA,EF{S EAF{ APLTE{A!STF{?'*. {[1raA,*SA 2OIS] E(A" I misllit - IialullllttE' 3{l "lllrli I[l[:f

Recommend Documents

umfirbo ffidhtrepffi{sn HAs[oHA[- SA,EF{S EAF{ APLTE{A!STF{?'. {[1raA,SA 2OIS] E(A" I misllit - IialullllttE' 3{l "lllrli I[l[:f